Тәуелсіз агентті деректер ғалымы сияқты ойлауға үйрету: DABStep бойынша бірінші орынды қалай алғанымыз және қайта пайдаланылатын құралдар генерациясы

Жасанды интеллект дамуының маңызды бағыттарының бірі — деректерді терең әрі жүйелі талдау жасауға қабілетті агенттер құру. Ірі деректер жиынтығымен тиімді жұмыс істейтін, күрделі көпқадамды сұрауларға жауап бере алатын агенттер зерттеушілерге және кәсіпқой ғылым қызметкерлеріне үлкен көмек көрсетеді. Бұл мақалада NVIDIA компаниясының зерттеу тобы әзірлеген KGMON (NeMo Agent Toolkit) Data Explorer атты автономды деректерді талдау агентінің архитектурасы мен оның ерекшеліктері қарастырылады. Бұл агент DABStep сынағында үздік нәтиже көрсетіп, дәстүрлі тәсілдерге қарағанда жұмысты 30 есе жылдам орындады.
Кіріспе: деректер талдауындағы сын-қатерлер
Интернетте мәтіндік контент көп болғанымен, құрылымдалған кестелік деректер мен олардың кешенді талдау сұраулары сирек кездеседі және оларды өңдеу қиындық тудырады. Интернет іздеу жүйелері бұл мәселені шешуде шектеулі мүмкіндіктер ұсынады, себебі олар көбінесе мәтінге негізделген жауаптар береді. Сондықтан деректер ғалымдарына арналған агенттер жоғары деңгейлі көпсатылы логика, құралдарды тиімді пайдалану және қайталамалы талдаулар жүргізу дағдыларын талап етеді. NVIDIA KGMON Data Explorer агентінің басты мақсаты — деректерді автоматты түрде талдап, күрделі сұрақтарға дәл жауап беру үшін икемді құралдар мен алгоритмдерді қолдану.
Негізгі түсіндірме: NVIDIA KGMON Data Explorer архитектурасы
Бұл агент екі негізгі режимде жұмыс істейді. Біріншісі — ашық сипатты зерттеу талдауы (Exploratory Data Analysis, EDA), мұнда агент пайдаланушымен үздіксіз байланыста болып, сынақ кестелеріне әртүрлі сұрақтарды қоя алады. Екінші режим — күрделі, көпсатылы ережеге негізделген кестелік сұрақтарға жауап беру, мұнда агент арнайы құралдармен бірге әрекет етеді.
Ашық сипатты зерттеу талдауы
Бұл режимде ReAct агенті Jupyter Notebook ортасында жұмыс істейді. Пайдаланушы агентке сұрақ немесе тапсырма жібереді, агент оларды нақты әрекеттерге аударып, код бөліктерін құрастыру, іске қосу және нәтижесін талдау арқылы жауап дайындайды. Визуализация пайда болған жағдайда, салалық Vision-Language Model арқылы графиктерді мәтіндік сипаттамаларға айналдырады. Бұл процесс пайдаланушыға визуалды материалдың мәнін түсінуге көмектеседі және талдауды жетілдіруге ұсыныстар береді.
Көпсатылы ережеге негізделген кестелік сұрақтарға жауап беру
Бұл режим қаржылық төлемдер саласына қатысты 450 тапсырмадан құралған DABStep сынағына бағытталған. Мұнда тапсырмалар екі топқа бөлінеді: қарапайым бір дереккөзге сұраулар және күрделі, көпсатылы есептер. Соңғы топ тапсырмаларында мәліметтерді оқу, код генерациялау (мысалы, SQL немесе Pandas), деректерді салыстыру сияқты күрделі операциялар орындалады. Сынақтың бағалауы нақты мәтіндік сәйкестік пен форматталған JSONL нәтижелерді талап етеді.
Контекст пен мысалдар: DABStep сынағы және көпфазалық әдіс
DABStep сынағында жетістікке жету үшін агент үш кезеңнен тұратын әдісті қолданды. Бірінші кезең — үйрену кезеңі, мұнда үлкен модель көпқадамды тапсырмалар жиынтығын шешіп, қайта қолдануға арналған арнайы функциялар мен кітапхана жасайды. Екінші кезең — жылдам және ықшам индукция, яғни дайын құралдарды тиімді пайдалану арқылы жаңа сұрақтарға жауап беру. Үшінші кезең — офлайн талдау, мұнда алынған нәтижелер қайта қаралып, агентті жетілдіруге бағытталады.
Үйрену кезеңінде бірдей негізгі операциялар бірнеше тапсырманың шешімінде қайталанатыны байқалған. Мысалы, бір айдың транзакция төлемін есептеу бірнеше тапсырмада бірдей бастапқы қадамдарды талап етеді. Агент бұл ұқсастықты пайдаланып, ортақ, қайта пайдалануға болатын модульдер жасайды. Бұл тәсіл кіріспе кодты едәуір азайтып, жалпы жүйенің сенімділігі мен тиімділігін арттырады.
Практикалық маңызы: тәжірбиелік қолдану және әсері
Бұл агент күрделі деректер жиынтықтарын талдауда зерттеушілердің жұмысын жеңілдетеді. Автоматты түрде код генерациялау арқасында талдау үрдісі тездетіліп, қателер азаяды. Көпсатылы сұрақтарға жауап беру мүмкіндігі бизнес саласындағы күрделі сұраныстарды орындауға септігін тигізеді. Әсіресе қаржылық аналитикада агент жоғары дәлдікпен және жылдамдықпен жұмыс істейді. Сонымен қатар, визуалды нәтижелерді мәтінді сипаттамаларға айналдыру пайдаланушыға деректердің мәнін терең түсінуге мүмкіндік береді.
Қорытынды
NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer агенті деректер ғалымының логикасын машинаға енгізуді көздейді. Қайта пайдаланылатын құралдар мен модульдер жүйесін құра отырып, күрделі көпфазалық есептерді шешуде үздік нәтиже көрсетті. Бұл тәсіл зерттеушілерге деректерді жылдам әрі тиімді өңдеуге, көпқадамды сұрақтарға нақты жауап беруге жағдай жасайды. Жаңа архитектура автономды деректерді талдау саласындағы маңызды жетістік болып табылады.
TAGS: жасанды интеллект, деректер талдауы, автономды агенттер, көпсатылы логика, NVIDIA KGMON, DABStep, деректер ғалымы
Дереккөз: Hugging Face Blog


