MolmoMotion: Тілдік нұсқаулар арқылы 3D қозғалысты алдын ала болжау

Қозғалысты алдын ала болжау – заманауи жасанды интеллект жүйелеріндегі маңызды және күрделі міндеттердің бірі. Бұл мәселе машиналардың айналадағы нысандардың қозғалысын бақылау деңгейінен бір саты жоғары деңгейге көтерілуін талап етеді. 3D кеңістікте қозғалыстың болашақ траекториясын дәл болжау робототехника, видео өңдеу және интерактивті жүйелер сынды көптеген салаларда маңызды рөл атқарады. MolmoMotion жобасы осы бағытта жаңа технологиялық шешімдер ұсынып, тілдік нұсқаулар негізінде объектілердің қозғалысын болжауда сапалы алға жылжу жасады.
MolmoMotion жобасының мәні мен негізгі түсінігі
MolmoMotion 3D нүктелік траекторияларға негізделген қозғалысты болжау моделі ретінде таңқаларлық нәтиже көрсетті. Ол бейнежазбаның бір кадры, объектінің үш өлшемді кеңістікте белгіленген нүктелері және объектінің қозғалысын сипаттайтын мәтіндік нұсқаулар негізінде алдағы бірнеше секундтағы қозғалыс траекториясын болжайды. Бұл тәсіл қозғалысты толық бейне өңдірмей-ақ, нүктелік қозғалыс ретінде ықшамдап сипаттауға мүмкіндік береді. Осындай көріністі таңдау үш негізгі қасиетті жүзеге асырады: бірінші, қозғалысты белгілі бір объект түріне бағындырмайды; екінші, түрлі камера мен көру бұрыштарында қозғалысты тұрақты ұсынады; үшінші, алынған деректер тікелей робототехника немесе видеоөндіру сияқты жүйелерге қолданыла алады.
MolmoMotion архитектурасында Molmo 2 негізі қолданылады. Бұл жүйе сурет пен мәтін арасындағы байланысты орнатып, қысқа бейне тарихы мен қозғалысқа қатысты нұсқаулар арқылы объектіні анықтап, оның нүктелерінің болашақ траекториясын есептейді. Екі негізгі нұсқасы – авторегрессиялық (MolmoMotion-AR) және ағынды сәйкестендіру (MolmoMotion-FM) түрлерінен тұрады. MolmoMotion-AR уақыт бойынша үйлесімді әрі нақты траекторияларды кезең-кезеңмен болжайды, ал MolmoMotion-FM келешекте бірнеше ықтимал қозғалыстар болатын жағдайларда қатесіз траекторияларды ұсынады.
Контекст пен мысалдар
Бұл жобаны құру үшін MolmoMotion-1M деп аталатын және 1,16 миллион бейнежазбадан топтастырылған 3D нүктелік қозғалыс дерекқорын жасады. Бұл жинақ объект негізіндегі қозғалысқа сәйкес мәтіндік сипаттамаларды қамтиды. Сонымен бірге, қозғалысты алдын ала болжау нәтижелерін бағалау үшін PointMotionBench деген 2,7 мыңнан астам бейне клиптер жинағы әзірленді. Бұл жинақ әртүрлі объектілер мен қозғалыс түрлерін қамтиды және нысанның шынайы қозғалысына қатысты тексерілген мәліметтермен жұмыс істеуге мүмкіндік береді.
Мысал ретінде: үстелдегі жемістер салынған ағаш ыдысты жылжыту және айналдыру, көлік жолда жүру және бұрылу немесе құстың арыққа тұмсығын енгізуі сияқты әрекеттерді мәтіндік нұсқаумен толық суреттеп, содан кейін MolmoMotion моделі объектінің 3D траекториясын дәл есептей алады. Бұл роботтың немесе бейнегенератордың нақты әрі шынайы қимылдарды орындай алуына мүмкіндік береді.
Практикалық маңызы
MolmoMotion технологиясы робототехникада манипуляция міндеттерін жетілдіруге бағытталған. Мысалы, робот қолымын белгілі бір бұрышқа бұру немесе затты дәл мақсатпен жылжыту қажет болғанда, модельдің болжамы нақты қозғалысты алдын ала анықтауға жәрдемдеседі. Сонымен қатар, бейне генерация саласында MolmoMotion арқылы физикалық заңдылықтарға сай келетін әрі басқарылатын қозғалыс анимацияларын жасауға мүмкіндік пайда болады.
Модельдің ашық түрде берілуі қауымдастыққа оны жетілдіруге, өзгертуге және әр түрлі салаларда пайдалану аясын кеңейтуге ықпал етеді. MolmoMotion-1M дерекқоры мен PointMotionBench бенчмаркі зерттеушілерге және әзірлеушілерге нақты әрі үлкен көлемдегі деректерге қол жеткізу мүмкіндігін береді, бұл қозғалысты болжау саласын дамытуға тың серпін беретіні анық.
Қорытынды
MolmoMotion жобасы 3D қозғалысты тілдік нұсқаулар арқылы болжауда ірі қадам жасады. Қозғалысты ықшам әрі әмбебап түрде сипаттайтын бұл модель робототехника мен видео генерация сияқты салаларда қолданыс табуда. Үлкен әрі сенімді дерекқордың және жан-жақты тексерілген бенчмарктың болуы MolmoMotion-нің дәлдігі мен сенімділігін арттырды. Бұл технологияның дамуы болашақта интерактивті жүйелер мен автоматтандырудың сапасын арттыра түседі.
TAGS: 3D қозғалыс, болжау моделдері, тілдік нұсқаулар, MolmoMotion, робототехника, видео генерация, жасанды интеллект
Дереккөз: Hugging Face Blog



