Мақалалар

vLLM V0-ден V1-ге дейін: RL-дегі түзетулерге дейінгі дұрыстығы

Жасанды интеллект және күшейтілген оқыту жүйелері саласында vLLM моделі RL (күшейтілген оқыту) процестеріне әсер ететін негізгі компоненттер қатарында. Бұл модельдің V0 нұсқасынан V1 нұсқасына көшуі барысында, дұрыстық мәселесі — оқыту мен болжам жасау арасындағы сәйкессіздікті жою – басты мақсат болған. Бұл мақалада vLLM V0-ден V1-ге көшу барысында қандай қиындықтар туындағаны, олар қалай шешілгені және бұл үрдістің RL жүйелеріне тигізетін маңызы сарапталады.

Кіріспе

Күшейтілген оқытуда таңдалатын нәтижелер мен алгоритмнің оқыту тиімділігі терең болжамдардың дәлдігіне байланысқан. vLLM моделі — бұл тұжырымдаманың негізгі құрамдас бөлігі, себебі ол токендердің ықтималды қисымдарын (logprobs) есептейді. Осы мәндердің нақтылығы оқыту процесіне тікелей әсер етеді. Сондықтан, V0 нұсқасынан V1 нұсқасына көшу кезінде оқыту және болжам модульдеріндегі сәйкессіздікті болдырмау ең басты міндет болды.

Негізгі түсіндірме

vLLM V1 — бұл V0-ге қарағанда айтарлықтай қайта жазылған қозғалтқыш. Көшу мақсаттары нақты шектеліп, алдымен V1 нұсқасының болжамдағы ықтималдық мәндері (rollout logprobs) тренажер күткен пішімге сәйкес келуі қажет болды. Осы талап орындалғаннан кейін ғана алгоритмнің өзіндік жаңалықтары мен модификациялары қарастырылды.

Үш негізгі сәйкессіздік себебі анықталды:

  • Семантикалық сәйкессіздік: артқы жүйе (бекенд) есептеген ықтимал мәндердің мағынасы тренажердің күтетінінен өзгеше.
  • Жұмыс процесіндегі айырмашылық: артқы жүйенің орындалу ортасындағы әр түрлі әдепкі параметрлері, бұл бірдей талдаудың әртүрлі жолмен жүзеге асуына алып келеді.
  • Мақсаттық сәйкессіздік: RL мақсаттық функциясының нақты жағдайларға сай дұрыстауды қажет етуі.

Алғашқы қате семантикалық сәйкессіздік болды. vLLM V1 логарифмдік ықтималдықтарды өңделмеген күйінде қайтарғанда, тренажер өңделген ықтималдықтарды күткен. Бұл мәселені шешу үшін processed_logprobs режимі енгізілді.

Контекст және мысалдар

Алғашқы V1 нұсқасы бірнеше параметрлерді өздігінен орнатқанымен, олар оның әрекетін V0-ден айыра түсті. Мысалы, әдепкіке қойылған асинхрондық жоспарлау және префикс кешін қолдану орындалу процесін өзгерткен. Бұл facebook-тің prefix caching технологиясының ерекшеліктерімен байланысты, бірақ online RL жағдайында кештің қолданылу ерекшеліктеріне байланысты сәйкессіздік пайда болды.

Сонымен қатар, салмақтардың үздіксіз жаңартылуы мен кештің тазалануы мәселесіндегі айырмашылықтар да маңызды рөл атқарды. V0-дің салмақ жаңартулары жеңілдетілген түрде өтсе, V1 бұл үдерісті қатаң бақылауға алуы оқыту процесіндегі өнімділіктің өзгеруіне алып келді. Бұл сәйкессіздікті түсіну және жою үшін қатаң модельдік және орындаушылық үйлесімділік қажет.

Тағы бір маңызды мәселе — соңғы проекцияның дәлдігі (fp32 lm_head). Kүшейтілген оқытуда ықтималдықтар арқылы жасалатын түзетулер өте нәзік болғандықтан, проекцияның есептеу әдісі оқыту нәтижелеріне айтарлықтай ықпал етеді. Бұл мәселе MiniMax-M1 және ScaleRL зерттеулерінде де расталды.

Практикалық маңызы

vLLM V1 кодындағы түзетулер оқу мен болжам модульдерінің біркелкілігін қамтамасыз етеді. Бұл көшу ұзақ мерзімді оқыту процесінің сенімділігін жоғарылатады және әртүрлі артқы жүйелер арасында үйлесімділікті сақтауға мүмкіндік туғызады.

Өзгерістер нақты жағдайларда — PPO, GRPO және PipelineRL сияқты онлайн RL жүйелерінде қолданылады және нәтижесінде оқыту процесінің тұрақтылығы, жылдамдығы мен тиімділігі артады. Белгіленген түзетулер оқыту динамикасында рұқсат етілмеген ауытқуларды жояды, бұл ірі масштабты модельдерді дамыту мен қолдануда маңызды.

Қорытынды

vLLM жүйесінің V0 нұсқасынан V1 нұсқасына көшуі алдын ала дұрыс нәтиже алу үшін оқыту және болжамдаудың сәйкестігін қамтамасыз етті. Бұған семантикалық сәйкессіздікті жөндеу, орындау параметрлерін нақтылау, салмақ жаңартуларын үйлестіру және соңғы проекцияның дәлдігін арттыру кіреді. Бұл шаралар RL саласындағы модельдердің сапасын және оқыту үрдісінің тұрақтылығын едәуір жақсартты.

TAGS: жасанды интеллект, күшейтілген оқыту, vLLM, модель миграциясы, ықтималдықтар, RL, есептеу дәлдігі

Дереккөз: Hugging Face Blog

Басқа жаңалықтар

Back to top button