AI бағалаулары есептеу қуатын тұйықтап жатыр

Жасанды интеллект жүйелерін бағалау процедуралары технология дамуының маңызды элементі саналады. Осы салада есептеу ресурстарының үнемі кеңеюі бағалау тиімділігін арттыруға мүмкіндік береді. Бірақ соңғы жылдары жасанды интеллекттің бағалау әдістері есептеу ресурстарының жаңа шектеуіне айналуда, бұл саладағы зерттеулер мен тәжірибелерге ықпал етеді. Бұл мақалада жасанды интеллект бағалауларының экономикалық және техникалық қиындықтары, сондай-ақ оны жеңілдету жолдары сараланады.
Жасанды интеллект бағалауларының күрделігі
Жасанды интеллект агенттерін бағалау бойынша ірі жоба – Holistic Agent Leaderboard (HAL) – 21 730 агенттің 9 модель мен 9 бағалау өлшемі бойынша сынамасына шамамен 40 000 доллар жұмсаған. Бір ғана фронтирлік модель үшін GAIA жүйесі кешіктірілмеген жағдайда 2 829 долларды құрайды. Эксгенттің агент конфигурацияларын зерттеуі бірдей міндеттерде 33 есеге дейінгі шығынның айырмашылығын көрсетіп, қатты тәуелділік отбасындағы негізгі шаманың құрылым таңдауларынан екені анықталды.
Ұлыбританияда UK-AISI агенттің есептеу қабілетін зерттеу аясында миллиондаған агентік қадамдардың көлеміне жеткен. Ғылыми-машиналық оқыту саласында The Well аппараты бір жаңа архитектураны бағалауға шамамен 960 H100 GPU сағатын жұмсайды, толық төрт базалық модель үшін бұл көлем 3 840 сағатқа жетеді. Бұл сандық кошторлар мен өлшеу мәліметтері агент бағалауларындағы физикалық құрылымдардың үнемдеу мүмкіндігін шектеуін айқындайды.
Статикалық LLM бағалау процедураларының тиімділігі
Жасанды интеллект модельдерін бағалаудың шығындары агенттер пайда болғанға дейін де үлкен мәселе еді. 2022 жылы Stanford университетінің CRFM тобы HELM деп аталатын платформа шығарғанда, OpenAI-дың Code-Cushman-001 моделі бойынша API қолдану шығыны 85 доллардан басталып, AI21-дің J1-Jumbo (178 миллиард параметр) моделі бойынша 10 926 долларға дейін жетті. Ашық модельдерде GPU сағаттары 540-тан 4 200-ге дейін жетуі мүмкін, BLOOM (176 миллиард) және OPT (175 миллиард) ең қымбаттар қатарында болды.
Perlitz пен әріптестері ӘлеутхерAI-дың Pythia жобасындағы 2 464 тексерілім жүргізілік кезінде бағалаудың қайта-қайта жасалуы оқу үдерісінің өз шығындарын арттыратынын анықтады. Осының нәтижесінде, кішігірім модельдер үшін бағалау шығыны әзірлеудің жалпы кезеңінде басты есептеу элементіне айналды.
Бұл мәселені шешуде Flash-HELM әдісі алғашқы арзанырақ бағалаулардан бастап, кейін ең жақсы үміткерлерге жоғары дәлдіктегі есептеулерді жасауға негізделген үдерісті ұсынды. Мұндай тәсіл үлкен есептеу көлемдерін айтарлықтай қысқартты және рейтингі сақталды.
Агент бағалауларының ерекшелігі мен қиындықтары
Агенттердің бағалау элементі агенттер жүйесінде Ұлттық Агенттік Бақылау Лидері HAL қолданыс табады. HAL мұқият ескеретін бағалау жүйесі кодтау, веб-навигация, ғылыми тапсырмалар мен клиенттерге қызмет көрсету сияқты салаларды қамтиды. Құрылым мен есептеу төлемдерінің біріктірілген жүйесі 21 730 агенттік сынамада 40 000 долларға жуық қаржы талап етті.
HAL көрсеткеніндей, бір сынама бағасының өзгеруі төрт тәртіпке дейін созылып, үнсіз құны әр түрлі болды. Барлық агент пен құрылым қосындысының әсері кішкене құрылымдық таңдау кезінде де шығындарды он есе арттыруы мүмкін.
Теориялықта үлкен қалайдыған қаржы жоғары нәтиже әкеледі деген болжамға қарамастан, тәжірибеде нәтиже мен есептеу құны арасындағы пропорция әлсіз. Мысалы, Claude Sonnet 4 моделі Online Mind2Web тапсырмаларында 40% дәлдікке жету үшін 1 577 доллар жұмсады, ал GPT-5 Medium 42% дәлдікке 171 долларға жетті. Бұл әр түрлі архитектуралар мен тәсілдердің шығындарының тиімділігін көрсетеді.
Бағалаудың есептеу шығындарын азайту жолдары
Статикалық бағалау жүйесінде сынақтардың саны мен элементтерін азайту мүмкіндігі жоғары болғандықтан, бағалаудың тиімділігін арттыру іс жүзінде мүмкін. Мысалы, tinyBenchmarks MMLU тестін 14 000 элементтен 100 негізгі элементке дейін қысқартып, 2% шамасында қателікке қол жеткізді. Ұқсас талдаулар Open LLM Leaderboard пен Anchor Points арқылы жүзеге асырылып, үлкен деректер жиынтығы 90% қысқартылды.
Алайда, агенттер негізінде өтетін бағалаулар күрделі әрі көп тарасы бар процестер болғандықтан, оларды қысқарту әлдеқайда қиын. Бірнеше ірі бағалау элементтері көп сатылы және күрделі жолмен жүргізіледі, әр сұраққа арналған толық многоқадамды сынама өзінің вариациясы мен ұзақтығымен ерекшеленеді.
Бағалаудың кейбір рәсімдері оқытуға ұқсас
Бірнеше бағалау әдістерінде модельдерді жаңа тақырып бойынша нөлден салу қажет, бұл іс жүзінде толық оқу процесін камтиды. The Well жобасы осындай үлгі ретінде қолданылады. Бұл жоба ғылыми машина оқыту салаларындағы 16 түрлі деректер жиынтығын қамтиды. Әр базалық модель 12 сағатқа миллиондаған құрылымдық параметрлер туралы үдерістер арқылы оқытылады, бұл жалпы 3 840 H100 GPU саағаттарын талап етеді. Бір ерекше архитектураның бағасы шамамен 960 сағатты құрайды.
Бұл көрсеткіш бағалаудың оқытудан артық шығын алып шығатын ерекшелігін айқын көрсетеді, ол көп жағдайда қарапайым терең оқыту моделі туралы түсінікті кері айналдырады.
Бұл тенденция SciML саласында кеңінен таралған. MLE-Bench сияқты платформалар агенттердің нақты есептер бойынша әрекеттерін бағалайды және оларды оқытуға байланысты есептеу шығындарымен салыстырады. Мұндай тәсілдер зерттеулерді практикалық және нақты жағдайлармен байланыстырады, бірақ есептеу ресурстарын аса көп талап етеді.
Қорытынды
Жасанды интеллект бағалаулары бұл процестің есептеу ресурстары бойынша негізгі шектеуші факторға айналғанын анық көрсетеді. Статикалық модельдерде бағалауды оңтайландыру мүмкіндігі жоғары болса да, агенттік және бейімделген бағалау тәсілдерінде бұл қиынға соғады. Оқытуға жақын бағалаулар өз алдына үлкен есептеу жабдығын талап етеді. Сондықтан болашақта есептеу шығындарын төмендету, әдістердің тиімділігін арттыру және модельдер бағалау процедураларының құрылымын жетілдіру маңызды болады.
Дереккөз: Hugging Face Blog



