Мақалалар

Ауқымды тілді модельдер үшін шешу табылған математикалық қиындық

Жасанды интеллект саласындағы үлкен жетістіктердің бірі – ауқымды тілді модельдердің (АТМ) дамуы. Бұл технология табиғи тілмен жұмыс істеп, мәтіндерді талдауда, аудармада және басқа да күрделі тапсырмаларда кең қолданылады. Дегенмен, осы модельдердің дамуына бірқатар техникалық шектеулер кедергі келтірді. Miami қаласында орналасқан жасанды интеллект стартапы Subquadratic соңғы уақытта сол қиындықтардың бірін шешкенін жариялады. Бұл жаңалықтың маңызы мен оның салдарын сараптап көрелік.

Кіріспе

Ауқымды тілді модельдер – адамның табиғи тілімен түсінікті және күрделі ақпаратты өңдеуге қабілетті нейрондық жүйелер. Олар онлайн іздеуден бастап бағдарламалау кодтарын талдауға дейінгі ауқымды тапсырмаларды орындайды. Бірақ олардың жылдамдығы мен тиімділігі кейде шектеулі болады, себебі үлкен көлемдегі мәтіндерді өңдегенде есептеу қажет мөлшері күрт артады. Осы мәселе Subquadratic компаниясының зерттеуінің ортасында тұр.

Негізгі түсіндірме

Атақты трансформер архитектурасы ауқымды тілді модельдердің негізі саналады. Оның жұмыс істеу принципі – мәтіндегі әрбір «токен» (сөз немесе оның бір бөлігі) арасындағы қарым-қатынасты есептеу, яғни «тығыз назар аудару» (dense attention) әдісін қолдану. Мұнда әрбір токен басқа токендердің бәрімен көбейтіліп, өзара ықпалын анықтайды. Мәтін ұзындығы артқан сайын есептеу көлемі квадратына өсе түседі. Мысалы, 10 000 токеннен тұратын мәтінде шамамен 50 миллион көбейту операциясы орындалады. Бұл үлкен қуат жұмсалады және модельдердің жұмысын жайлатады.

Subquadratic бұл мәселеге қарама-қайшы тұрғыдан қарап, «салық назар» (sparse attention) әдісін қолдануды ұсынды. Яғни барлық токендерді емес, тек маңызды, таңдап алынған элементтерді ғана есепке алу арқылы жүйенің жылдамдығы мен тиімділігін айтарлықтай жоғарылатады. Бұл әдістің басты жаңалығы – маңызды қатынастарды нақты ұрып, динамикалық түрде әр мәтінге қарай бейімдеу болып табылады. Мұндай тәсіл бұрын да қолдануға әрекеттенгенімен, нақты құнды нәтиже әкелу қиынға соқты.

Контекст және мысалдар

Subquadratic компаниясы жаңа SubQ моделі арқылы аталмыш әдістің тиімді жұмыс істейтінін көрсетті. Ол нарықтағы басқа модельдермен салыстырғанда тез және үнемді жұмыс істеуге қол жеткізеді, энергияны аз талап етеді және мәтіннің көлемін бірден 12 есе көп өңдей алады. Бұл ақпаратты өңдеуде үлкен базаға ие құжаттарды немесе бағдарламалық кодтарды талдауда үлкен артықшылық береді.

Ең маңызды көріністерінің бірі – тәуелсіз зерттеу фирмасы Appen моделі жүргізген сынақтарда SubQ жылдамдық пен дәлдік жағынан танымал модельдерге теңескенін анықтады. Мысалы, кодтау тапсырмаларын шешудегі жетістігі 89,7%-ға жетіп, OpenAI мен Google DeepMind сияқты алдыңғы қатарлы компаниялардың өнімдерімен бәсекелестік деңгейде тұрды.

Оның үстіне SubQ моделі айтарлықтай үлкен мәтін ауқымын (контекст терезесі) 12 миллион токенге дейін өңдей алады, бұл дәстүрлі модельдердің шамасынан анағұрлым жоғарғы көрсеткіш. Модельді 400 құжатты құрылымдық түрде талдауға қойылған сынақта ол бірнеше секунд ішінде нәтижесін көрсетті, ал кейбір басқа танымал модельдер мұндай тапсырмамен күресе алмады.

Практикалық маңызы

SubQ моделі осы жетістіктерімен тілдік модельдердің жұмысына жаңа тыныс әкеледі. Ең алдымен, жылдамдық пен есептеу шығындарын азайту арқылы жасанды интеллект жүйелерінің қолжетімділігін арттырып, оларды кеңінен қолдануға жағдай жасайды. Тиімділіктің қарқынды артуы мәліметтерді өңдеуде және күрделі есептерді шешуде көп кәсіпорындарға пайда әкеледі.

Бұл технологияның тағы біріктігі – трансформер архитектурасын қайта қарастыруға итермелеуі. Subquadratic компаниясының айтуынша, трансформерлердің дәуірі бітуі ықтимал, ал олардың әдісі әрі қарай үлкен өзгерістерге жол ашуы мүмкін. Бұл жасанды интеллекттің дамуына тың серпін береді және есептеу ресурстарын ұтымды пайдалануды қамтамасыз етеді.

Қорытынды

Subquadratic компаниясының SubQ моделі үлкен тілді модельдердің дамуына кедергі болған негізгі техникалық шектеуді жеңген тұңғыш жүйелердің бірі болып көрінеді. Оның жылдамдықты айтарлықтай арттыруы және шығындарды төмендетуі интеллект жүйесін кеңірек қолдануға мүмкіндік береді. Дегенмен, бұл технология толық тәжірибелік тексеруден өтуді, кең қолданыста өзін дәлелдеуді талап етеді. Сонымен қатар, модельдің кейбір нақты сипаттамалары мен жұмыс принциптері әлі де толық ашылған жоқ, сондықтан болашақта қосымша зерттеулер мен тәуелсіз бағалаулар маңызды болады.

Дереккөз: MIT Technology Review

Басқа жаңалықтар

Back to top button