Мақалалар

Mixture of Experts (MoEs) трансформерлерде

Кіріспе

Соңғы жылдары ірі көлемді тілдік модельдерді кеңейту бағытындағы зерттеулер көп жетістіктерге жетті. Бұған дейін параметрлері миллиондаған және миллиардтаған болатын модельдер ұсынылды. Дегенмен, мұндай тығыз (dense) модельдердің ауқымын ұлғайтудың өз шегі бар: оқыту шығындары жоғарылайды, моделді іске қосу жылдамдығы төмендейді, және жад пен аппараттық жабдықтар талаптары артады. Осы мәселелерді шешуге бағытталған жаңа тәсілдердің бірі – Mixture of Experts (MoEs) технологиясы. Бұл әдіс үлкен параметрлік моделдердің өнімділігін арттырып, есептеу тиімділігін жақсартуға серпін беріп жатыр.

Негізгі түсіндірме

MoEs моделі трансформер архитектурасының негізгі құрылымын сақтай отырып, тығыз жылжымалы қабаттарды бірнеше «эксперттерге» бөледі. Мұндағы «эксперт» термині нақты бір сала маманы мағынасында қолданылмайды, ол – оқытылатын өз алдына бір шағын желі. Әрбір өңделетін бірлікке (токенге) арнайы бағыттаушы (router) бірнеше эксперт таңдап, тек солар арқылы өңдеу жүреді.

Осылайша, модель барлық параметрін жоққа шығармайды, бірақ әрбір токеннің өңделуінде белсенді параметрлер саны шектеулі болады. Мысалы, gpt-oss-20b моделі 21 миллиард параметрден құралса да, токенге тек 4 белсенді эксперт қолданылады. Бұл модель тұтас көлемінің 3,6 миллиард параметрі шамасында ғана белсенді параметрді пайдаланады. Нәтижесінде, есептеу жылдамдығы артатыны байқалады, әрі сапасы да үлкен параметр санының көрсеткішімен жуық болады.

Контекст және мысалдар

MoEs қолдану тиімділігін көрсету үшін сандық мысал келтіруге болады. M3 Ultra Mac жүйесінде гпт-осс-20b моделін іске қосқанда, жад өткізу қабілеті шамамен 800 гигабайтқа жетеді. Бұл жағдайда bfloat16 форматында параметрлердің жадысын есептеп, болжалды жылдамдықтың шамасы секундына 111 токенге тең болады, нақты тәжірибеде бұл көрсеткіш 115 токенге жетеді. Яғни, модельдің жұмыс жылдамдығы болжаммен үндес және жоғары көрсеткіш көрсетеді.

Мұндай технология салалық деңгейде де қолданылып келеді. Мысалы, соңғы уақытта Qwen 3.5, MiniMax M2, GLM-5 және Kimi K2.5 сияқты ашық модельдердің MoEs нұсқалары пайда болды. DeepSeek R1 жобасы 2025 жылғы қаңтар айында шыққаннан кейін MoEs танымалдығы артты. Бұл бағыттағы тағы бір ерте мысал – 2023 жылдың желтоқсанында шыққан Mixtral-8x7B моделі.

Практикалық маңызы

MoEs технологиясын трансформерлерге енгізу көптеген қиындықтар туғызады. Мұндай модельдерге арналған құралдар (жүктеу, жүктеу алгоритмі, сандықлау, есептеу әдістері) бастапқыда тығыз модельдерге бейімделген. Сондықтан MoEs қолдану трансформерлердің құрылымдық және бағдарламалық жасақтамалық бөліктерін қайта қарауға итермелейді.

Мысалы, салмақтарды жүктеу кезінде дерек көзінде әр эксперттің жеке салмақтары бөлек сақталады, ал іске қосу кезінде олар біртұтас құрылымға оралуы қажет. Бұл үшін WeightConverter деп аталатын арнайы модуль енгізілді. Ол жүктелетін салмақтарды бөлек тізімнен жинақтап, тиімді жад құрылымына ауыстырады. Сонымен бірге бұл процесс өнімділікті арттырып, жүйенің жад салмақтылығын азайтады.

Жүктеу үдерісінің жылдамдығын арттыру бойынша да жетістіктер бар. Мысалы, Qwen1.5-110B Chat моделін NVIDIA A100 видеокартасында жүктеу уақыты v4 пен v5 трансформер кітапханаларының араларында едәуір айырмашылықты көрсетті. v4 нұсқасында бір жіппен жүктеу шамамен 67 секунд болса, v5 кітапханасы асинхронды және параллельді жүктеу арқасында 10 секундқа жақындайды. Бұл оқу және inference кезеңіндегі кең көлемді модельдерді жылдам қолжетімді етуге мүмкіндік береді.

Қорытынды

MoEs технологиясы трансформер негізіндегі ірі тілдік модельдердің параметр ауқымын сақтай отырып, есептеу тиімділігін арттыруға бағытталған. Ол модельдерге динамикалық түрде аз көлемдегі параметрлерді пайдаланып, өнімділік пен жад талаптарын оңтайландырады. Соның арқасында зерттеу мен өндірістегі ірі тілдік жүйелердің даму жолы кеңінен ашылып келеді. Трансформерлер экожүйесінде MoEs-ті толық қолдау үшін арнайы бағдарламалық жұмыстар жүргізіліп, бұл технологияның перспективасы жоғары екенін дәлелдеп отыр.

Дереккөз: Hugging Face Blog

Басқа жаңалықтар

Back to top button