Мақалалар

Code Concepts: бағдарламалау концепцияларын пайдаланып жасалған үлкен көлемді синтетикалық мәліметтер жиынтығы

Жасанды зерде тіл модельдерін дамытуда үлкен көлемдегі мәліметтер сапасы мен нақты бағытталуы маңызды роль атқарады. Әдетте алдын ала оқыту үшін қолданылатын дерекқорлар әртүрлі ақпаратқа бай болса да, олар жеке дағдыларды тереңдету, мысалы, бағдарламалау немесе логикалық ойлауды жетілдіру үшін арнайы бағытталмаған болады. Осы олқылықты толтыру мақсатымен концепцияларға негізделген синтетикалық мәліметтерді масштабты түрде жасау әдісі ұсынылды. Бұл әдіс зерттеушілерге қажетті модель мүмкіндіктеріне сай мәліметтерді мақсатты түрде жинақтауға мүмкіндік береді.

Негізгі түсіндірме

Ұсынылған әдіс Nemotron-Pretraining-Code-Concepts атты синтетикалық мәліметтер жиынтығын құру арқылы алғаш рет іске асырылды. Бұл жиынтық 15 миллион Python бағдарламалау тапсырмасын қамтиды. Мәліметтер жиынтығы Nemotron-Pretraining-Specialized-v1.1 дерегі аясында ұсынылған және Nemotron-Nano-v3 моделін оқытуға енгізілген кезде HumanEval бенчмаркіндегі бағалау көрсеткішін алты пайызға арттырды.

Мәліметтер генерациясы бағдарламалау концепцияларының ірі таксономиясына сүйенеді. Бұл таксономия Nemotron-Pretraining-Code-{v1,v2} датасеттерін кең көлемде талдау нәтижесінде жасақталған. Ол мыңдаған бағдарламалау ұғымдарын, мысалы, жолдармен жұмыс, рекурсияның негіздерінен бастап күрделі алгоритмдер мен деректер құрылымдарының үлгілеріне дейін, іргелі және іргелі деңгейлерге ажыратады.

Бұл таксономияның көмегімен зерттеушілер арнайы таңдалған концепцияларды біріктіріп, құрастыру арқылы мәліметтерді мақсатты және теңгерімді түрде алу мүмкіндігіне ие. Бұл тәсіл генерацияланған мәліметтердің қиындық деңгейі мен әртүрлілігін, сондай-ақ концептуалды тепе-теңдігін бақылауға мүмкіндік береді.

Контекст және мысалдар

Жұмыс аясында HumanEval бенчмаркіндегі негізгі 91 бағдарламалау концепциясы анықталды, олар модельдің баптауына бағдар ретінде қолданылды. Бұл концепциялар нақты бағдарламалау білімін кеңінен қамти отырып, тестілеу тапсырмаларының мазмұнына сәйкестендірілді.

GPT-OSS 120 миллиард параметрлі моделі негізінде бұл концепцияларды құрастыру арқылы 15 миллиондай дұрыс жұмыс істейтін Python коды бар синтетикалық тапсырмалар жасалды. Әрбір тапсырма Python тілі синтаксисін тексеру үшін ast.parse функциясымен растаудан өтті.

Мысалы, «data-structures.sets.operation», «algorithms.arrays.processing» және «algorithms.geometry.computational» сияқты концепциялардың үйлесімі негізінде нүктелер тізімінен ерекше көпбұрыштардың ауданын санау тапсырмасы құрылды. Бұл тапсырма концепциялардың аралас қолданылуының нақты мысалы болып табылады.

Практикалық маңызы

Code Concepts деректер жиынтығы Nemotron-Nano-v3 моделінің 100 миллиард токенмен өткен соңғы оқыту кезеңіне 10 миллиард токен ретінде енгізілді. Нәтижесінде модель HumanEval көрсеткішінде 73-тен 79-ға дейін өсім көрсетті. Бұл көрсеткіш математикалық дәлдік пен бағдарламалау дағдыларын бағалау сапасының едәуір жақсарғанын айғақтайды.

Бағалау кезінде граф алгоритмдері, жиындар операциялары және орындалу логикасын талап ететін шектік жағдайлар сияқты әртүрлі бағдарламалық концепциялар бойынша модельдің қызметі жақсарды. Демек, концепцияларға бағытталған синтетикалық мәліметтер генерациясы модельдердің көпқырлы дағдыларын нығайтуға әсер етеді.

Жобаның ерекшелігі – синтетикалық деректер жиынтығы мен бағдарламалау концепцияларының таксономиясын ашық лицензия бойынша жариялап, кең ғылыми қауымдастыққа тарату. Мұндай тәсіл әдістемені әрі қарай дамытып, шығармашылық және кәсіби салаларда қолдану аясын кеңейтуге мүмкіндік береді.

Қорытынды

Code Concepts жобасы бағдарламалау концепциялары негізінде синтетикалық мәліметтер жасау әдістемесі арқылы үлкен көлемді, сапалы және мақсатты оқыту дерекқорын құру жолын көрсетті. Бұл тәсіл модельдердің бағдарламашылық тапсырмаларды дұрыс шешу қабілетін арттырып, олардың сапалы әрі өнімді дамуына үлес қосады. Ашық лицензиямен ұсынылуы оның кеңінен қолданылуын және әдістемелік жаңалықтардың таралуын қамтамасыз етеді.

Дереккөз: Hugging Face Blog

Back to top button