North Mini Code: Cohere компаниясының әзірлеушілерге арналған алғашқы моделі

Жасанды интеллект саласында бағдарламалау және кодтау процестерін жетілдіру бағытында жаңа технологиялар маңызды орын алады. Cohere компаниясы әзірлеушілерге бағытталған алғашқы моделі North Mini Code-ты ұсынды. Бұл модель кешенді бағдарламалау міндеттерін шешуге және күрделі кодтарды генерациялауға эксклюзивті мүмкіндіктер ұсынады, әрі ашық лицензиямен қолжетімді. Мақалада осы модельдің архитектурасы, оқыту әдістемелері және практикалық қолданылуы толықтай талданады.
North Mini Code моделі және архитектурасы
North Mini Code — 30 миллиард параметрі бар, соның ішінде 3 миллиард параметрі белсенді Mixture-of-Experts (мамандықтар араласуы) архитектурасына негізделген трансформер моделінің бір түрі. Бұл модель тек декодерлік құрылымға ие және өз жұмысына ерекше күтіммен жасалған. Өзгермелі назар (attention) механизмдері екі тәсілмен, яғни сырғанайтын терезе арқылы позициялық орамалармен (RoPE) және толық жаһандық назар жағдайымен үйлестіріліп қолданылған. Бұл тәсіл ақпаратты тиімді өңдеуге мүмкіндік береді. Модельде 128 мамандық (эксперт) бар, олардың әр токенге сәйкес 8-і белсендіріледі. Әр мамандықта SwiGLU активациясымен жұмыс істейтін фид-форвард желісі орналасқан.
Оқыту әдістемесі және жетілдіру кезеңдері
North Mini Code моделі екі кезеңді бақылаулы оқыту (Supervised Fine-Tuning) және растаулы марапаттармен агенттік күшейтілген оқыту (Reinforcement Learning with Verifiable Rewards) әдістерін қолдану арқылы жетілдірілген. Бірінші кезеңде кодтау қабілеттерін әзірлеу үшін әртүрлі дереккөздерден құралған деректер үлгісі пайдаланылған, оның ішінде программалау және логика элементтері басым. Екінші кезеңде агенттік және логикалық тапсырмаларға басымдық берілген жоғары сапалы мәліметтер қолда болған. Оқыту процесінде нақты бағдарламалау тапсырмалары мен құралдарды пайдаланудағы сенімділікке үлкен көңіл бөлінген. Жалпы, деректер жиыны 70 мың растаулы тапсырмадан және 5000-ға жуық репозиторийден алынған.
Контекст пен мысалдар
North Mini Code моделі әртүрлі құралдар мен агенттер жағдайларында тұрақты жұмыс істеу үшін арнайы шақпақтарды ескерген. Мысалы, SWE-Agent құрал-агентінде кең ауқымды командалармен және кеңейтілген бақылау функцияларымен қолдау, mini-SWE-agent-те қарапайым командалық жолдағы кері байланыс, ал OpenCode жүйесінде құрылымдалған және типтелген JSON жауаптары қолданылған. Модель бұл жағдайлардың барлығына бейімделіп, аралас оқыту нәтижесінде кросс-харнесстер арасында сенімді нәтиже көрсеткен.
Практикалық маңызы және қолданылуы
North Mini Code әртүрлі бағдарламалау агенттерін құру мен жетілдіруде сенімді шешім. Оның архитектурасы мен оқыту әдістері күрделі кодтау міндеттерін тез әрі дәл орындауға мүмкіндік береді. Агенттік күшейтілген оқыту арқасында құжаттық, интерактивті және командалық жолдағы тапсырмаларды тиімді атқарады. Сонымен қатар, модель ашық лицензиямен ұсынылуы әзірлеушілер қауымдастығына қолжетімділікті арттырып, инновациялық жобаларда кеңінен қолданыс табуына ықпал етеді.
Қорытынды
North Mini Code — кешенді бағдарламалау тапсырмаларын шешуге бағытталған, көп мамандықты трансформер архитектурасы негізіндегі, агенттік бағдарламалау қабілеті жоғары, тиімді оқыту әдістерімен жетілдірілген модель. Оның жоғары нәтижелілігі және түрлі контексттерге бейімділігі ашық бастапқы кодты құралдар арасында алдыңғы орынға шығарды. Бұл модель бағдарламалау агенттерін жасаумен айналысатын мамандар үшін маңызды ресурс болып табылады.
Дереккөз: Hugging Face Blog



