NVIDIA Cosmos Predict 2.5 моделін LoRA және DoRA арқылы робот бейнежазбасын генерациялауға бейімдеу

19.05.2026

Жасанды интеллект тақырыбындағы иллюстрация

Кіріспе

Жасанды интеллект технологиялары робототехника мен бейнежазбаны өңдеу саласында жылдам дамуда. NVIDIA Cosmos Predict 2.5 – мәтін, сурет немесе бейне үзіндісі негізінде физикалық тұрғыдан шынайы бейнелер генерациялай алатын үлкен масштабты әлем моделі. Бұл технология роботты басқару және бейнежазба жасау үшін қолданылады. Дегенмен, нақты домендерге – мысалы, роботтың белгілі бір камера бұрышы немесе манипуляция түрлеріне – бейімдеу қажет. Толық масштабты 2 миллиард параметрлі моделді қайта оқыту өте ресурсты қажет етеді, сол себепті оның үнемді әрі тиімді әдістерін іздеу өзекті.

Негізгі түсіндірме

LoRA (Low-Rank Adaptation) мен DoRA (Direction and Magnitude Decomposition) әдістері – базалық модельдің негізгі салмақтарын қатып қойып, шағын бейімделуші модульдерді қосып, оқыту шығынын азайтады. Бұл тәсіл компьютердің жадысын үнемдеп, бір GPU-де оқытуға қолайлы. Сонымен қатар, әртүрлі тапсырмаларға арналған адаптерлерді ауыстыру оңайлығын қамтамасыз етеді.

Cosmos Predict 2.5 үш негізгі құрамдас бөліктен тұрады: видео кадрларды латенттік кеңістікке айналдыратын вариациялық автоэнкодер (VAE), мәтіндік тапсырмаларды кодтайтын текст енкодері, және латенттер кеңістігінде диффузиялық трансформер (DiT). Оқыту барысында осы үш бөлік өзгермей, LoRA адаптерлері тек DiT-тің кейбір қабаттарына енгізіледі.

Оқыту кезінде қолданылатын арнайы функция – rectified flow, онда модель шуды бастапқы таза мәліметке қарай апаратын жылдамдықты болжайды. Бұл тәсіл бейнефреймдердің бастапқы екі кадрына негізделеді, олардың латенттеріге ешқандай ығысу әсері берілмейді, ал қалған жиынтыққа кері байланыс беріледі.

Контекст және мысалдар

Роботтық саясатын үйрету бірнеше қиындыққа ұшырайды. Нақты роботтарды бақылау жолдарынан қажетті оқыту мәліметтерін жинау өте баяу және қымбат. Сондықтан бейне әлем моделін дәлірек бейімдеп, синтетикалық оқу жолдарын генерациялау – кеңінен қолданылатын балама. NVIDIA Cosmos Predict 2.5 моделінің LoRA/DoRA әдістерімен аз ресурста бейімделуі арқылы визуалды симуляциялар пайда болады, ол роботтамақсаттық оқытуда жоғары өнімділік пен икемділік ұсынады.

Мысалы, 92 бейнежазбадан тұратын роботты манипуляция тапсырмалары бар оқыту жиынтығы және 50 мәтін-сурет жұбынан тұратын тест жиынтықтары пайдаланылады. Модель берілген мәтіндік сипаттауға және бірінші кадрға сәйкес бейне генерациялайды. Оқыту барысында бейне үзінділерін кездейсоқ үзінділеумен (temporal augmentation) кеңейтеді.

Практикалық маңызы

LoRA/DoRA арқылы модульдік бейімдеу әдістерінің артықшылығы – оқыту үшін үлкен ресурстар талап етпей, үлкен әрі күрделі моделдерді нақты міндеттерге бейімдеуге мүмкіндік беруі. Ол роботикалық бейне симуляциясын икемді әрі жылдам жүзеге асыруға негіз болады. Бұл әдіс бір GPU-де де оңтайлы жұмыс істей алады, оқытудың үнемді әрі жылдам өтуін қамтамасыз етеді.

Сонымен қатар, бұл тәсілді түрлі домендер мен тапсырмалар үшін адаптерді ауыстыру арқылы қолдау тәжірибелік жобаларда кеңінен ыңғайлы. Модельді оқыту кезінде Loss ретінде орташа квадраттық қателік (MSE) қолданылады, ал оқытуды жоспарлау және оңтайландыру torch.optim.AdamW және линейлік шегі бар жылдамдық реттеу (scheduler) арқылы жүргізіледі. LoRA адаптерлерінің салмағын үнемдік форматта сақтау және қажетті кезекте оларды жүктеу қарапайымдылық пен қайта қолдану мүмкіндігін арттырады.

Қорытынды

NVIDIA Cosmos Predict 2.5 моделін LoRA және DoRA әдістерімен бейімдеу робот бейнесін тасымалдауда жоғары тиімділік пен есептеу ресурстарын үнемдеуді қамтамасыз етеді. Бұл тәсіл робототехника саласында оқытуға қажетті синтетикалық мәліметтерді тиімді дайындауға жол ашады. Модельдің үш негізгі компоненті қатып қойып, тек шағын адаптерлер оқытылады, бұл жалпы білімнің жоғалуынан сақтайды әрі әртүрлі домендерге икемделуге мүмкіндік береді. Қажеттіліктерге қарай параметрлердің туралауы арқылы жүйе икемді әрі нәтижелі жұмыс істейді.

Дереккөз: Hugging Face Blog

Ілмектер