Direct Preference Optimization чатботтардан тыс қолданыста

04.06.2026

Жасанды интеллект тақырыбындағы иллюстрация

Жасанды интеллекттің дамуы мен машиналық оқыту саласындағы жетістіктер көптеген қолдану салаларын қайта қарауға ықпал етті. Солардың бірі – тікелей таңдауды оңтайландыру (Direct Preference Optimization, DPO) әдісі, бұрын негізінен чатботтарды жетілдіруге бағытталған. Бұл мақалада DPO әдісінің чатботтардан тыс, әсіресе құрылымдық мәтінді тану (OCR) міндеттерінде қалай тиімді қолданылатыны сараланады.

Кіріспе

Тек пайдаланушы ұсыныстары немесе адам бағалауларына негізделген чатботтарды жетілдіруге арналмаған, DPO әдісінің басқа міндеттерге де жол ашатыны белгілі болды. Мысалы, мәтінді тану жүйелерінде жиі кездесетін мәтіннің қайталануымен байланысты ақауларды азайту мәселесінде DPO техникалары арнайы нәтиже береді. Бұл тәсіл машиналық оқытуда дәстүрлі жетілдіру әдістерінің кемшіліктерін толықтырады және жүйенің сапасын айтарлықтай жақсартады.

Негізгі түсінік

Конвенциялық үйрету әдістері, атап айтқанда, қадағаланған жетілдіру (supervised fine-tuning, SFT) әрбір символның немесе сөздің ықтималдығын жеке бағалаумен шектеледі. Бұл тәсіл толық мәтіннің құрылымдық ақауларын, мысалы, қайталанатын үзінділерден тұратын үздіксіз циклдарды ескермейді. Мұндай қайталанулар мәтіннің сапасын төмендетіп, пайдаланушыға түсініксіз нәтиже береді.

DPO әдісі керісінше, толық шығару нәтижесіне назар аударады да, дұрыс және ақаулы нәтижелерді екі түрлі таңдау ретінде қарастырады. Бұл құрылымдық ақауларды анықтап, оларды жоюға мүмкіндік береді. Негізгі идея – модельдің өз қателіктерін оқыту сигналы ретінде пайдалану, яғни қайталану циклдарын кері баға ретінде енгізу.

Мәтін қайталануының себебі

Автоагрессивті тіл модельдері әр қадамда алдыңғы символдардың ықтималдығын арттырып, белгілі бір символға “жатудан” шыға алмай, қайталанатын үлгілерге кіреді. Бұл үрдіс кездейсоқтық пен болжамдар арасындағы өзара әрекеттердің нәтижесінде дамиды және оны қарапайым декодтау деңгейінде түзету мүмкін емес. SFT әдісі бұл қатені жазбайды, себебі ол қайталануды нақты жазалаудан асады, тек жеке символдар деңгейіндегі болжамдарды жақсартады.

Контекст және мысалдар

Hugging Face компаниясының DharmaOCR жобасы – DPO әдісінің құрылымдық мәтіндерді тану тапсырмасындағы тиімділігін көрсететін мысал. Бұл жобада бразилия португал тіліне арналған құжаттарды оқу міндеті қойылған. Зерттеу нәтижелеріне қарағанда, SFT арқылы жетілдірілген модельдер де мәтін қайталануынан толық құтылмайды, алайда DPO әдісі бұл көрсеткішті орташа 59% төмендеткен.

Мысалы, бір модельде қайталану деңгейі SFT кейін 3,23% дейін өсе түскен, бірақ DPO қолданып, ол көрсеткіш 1,41% дейін қысқарды. Бұл оқыту кезеңдерінің функцияларының ерекшелігін және олардың қайталану мәсесін шешудегі әртүрлі әсерін анық көрсетеді.

Практикалық маңызы

DPO әдісінің практикалық мәні – бұл модельдің өзден шыққан қателіктеріне негізделген оқытуды жүзеге асыру. Құрылымдық тапсырмаларда адам бағалаулары немесе пікірлері болмайтындықтан, бұл техниканы қолдану арнайы дизайн шешімдерін талап етеді. Мысалы, DharmaOCR жобасында SFT арқылы алынған ақаулы нәтижелер – өңделмей тікелей негатив сигналдар ретінде функциялады.

Бұл тәсіл көптеген құрылымдық міндеттерде дәлдік пен сенімділікті арттыруға мүмкіндік туғызады. Сонымен бірге, DPO әдісін қолдану өнімнің құнын азайтып, есептеу ресурстарын тиімді пайдалану арқылы өндірістік интеграцияның да жолын жеңілдетеді.

Қорытынды

Direct Preference Optimization әдісі машиналық оқытуда белгілі бір шектеулерге ие дәстүрлі жетілдіру әдістерін толықтырады. Модельдің өз қателіктерін нақты негатив сигнал ретінде пайдалану арқылы мәтіннің қайталануымен байланысты ақауларды азайтады. Бұл тәсіл тек чатботтарға арналмаған, құрылымдық мәтінді тану және басқа да нақты міндеттерде тиімді екенін дәлелдеп отыр.

Осылайша, DPO әдісі жүйелердің сапасын арттыру мен өңдеу үдерістерін жетілдіруге бағытталған жаңа мүмкіндіктерді ашады.

Дереккөз: Hugging Face Blog

Ілмектер