Мақалалар

MedQA: AMD ROCm платформасында клиникалық жасанды интеллектіні баптау – CUDAсыз іске асыру

Жасанды интеллекттің медицина саласындағы маңызы күннен-күнге артуда. Клиникалық сұрақтарға жауап беретін модельдер адам өміріне тікелей әсер ететін шешімдер қабылдауда қолданылады. Сондықтан осындай модельдердің сенімді әрі дәл жұмыс істеуі аса маңызды. Медициналық жасанды интеллектіні өңдеу үрдігінде әдетте NVIDIA видеокарталары және CUDA технологиясы қолданылады. Дегенмен, бұл жоба AMD ROCm платформасында CUDA технологиясын қолданбай, клиникалық тапсырмаларға арналған жасанды интеллектіні жетілдірудің жаңа мүмкіндіктерін қарастырады.

Жобаның негізгі идеясы мен маңызы

MedQA жобасының мақсаты – медициналық көп таңдаулы сұрақтарға жауап беретін жасанды интеллект модельін AMD MI300X аппараттық құрылғысында олардың ROCm ортасында орындау. Бұл тәсіл NVIDIA-ның CUDA технологиясына тәуелділіктен арылуға жол ашады. Мұндай шешім медицинадағы жасанды интеллект жобаларының экономикалық қолжетімділігін арттырады және аппараттық таңдау еркіндігін кеңейтеді. Сонымен бірге, бұл жолмен HuggingFace экожүйесінің маңызды компоненттерінің (Transformers, PEFT, Accelerate) AMD ROCm платформасында да дұрыс жұмыс істеуі дәлелденген.

AMD ROCm платформасының артықшылықтары

AMD Instinct MI300X – ерекше техникалық сипатқа ие жабдық: бір ғана құрылғыда 192 ГБ HBM3 жедел жады бар. Жасанды интеллекті модельдерін баптауда жедел жадының көлемі маңызды факторлардың бірі болып табылады. Модельдің жадтағы көлемі брутто-батч жиынтығына және есептеу дәлдігіне әсер етеді. 192 ГБ көлемі үлкен жадты және толықтай fp16 форматында оқытуды қамтамасыз етеді, 4-бит немесе 8-бит кванттау тәсілдерін қолданбай. Бұл үдеріс модельдің дәлдігін жоғалтпай, кайтарымды үнемдеуге мүмкіндік береді.

MedMCQA мәліметтер жиынтығы және Qwen3-1.7B моделі

Жобада қолданылған мәліметтер жиынтығы — MedMCQA – бұл медициналық кеңсе емтихандарынан алынған таңдаулы сұрақтар жиынтығы. Әрбір мысал клиникалық сұрақ, төрт жауап опциялары және дұрыс жауаппен бірге түсіндірмені қамтиды. 2 мыңдай сұрақ үлгісі таңдалып алынды, бұл модельдің тез әрі нәтижелі оқытылуын оңайлату мақсатында жасалған. Оқыту уақыты MI300X құрылғысында шамамен 5 минутты құрайды.

Негізгі модель ретінде Alibaba-ның Qwen3-1.7B үлгісі қолданылды. 1,7 миллиард параметрі бар бұл модель ықшамды әрі клиникалық себебін түсіндіруге қабілетті. Бұл параметрлер саны модельді үнемді оқытуды мүмкіндік береді және HuggingFace Transformers құрылымында оңай жүктеледі.

LoRA әдісі арқылы оқыту

Моделдің барлық 1,5 миллиард параметрін өзгерту орнына LoRA (төмен деңгейлі адаптация) әдісі қолданылады. LoRA модельдің назар аудару қабаттарына кішігірім адаптивті матрицаларды енгізеді, бұл негізгі параметрлерді өзгеріссіз қалдырады. Нәтижесінде, оқытылатын параметрлардың көлемі азайып, жады және есептеу ресурстары үнемделеді. Бұл тәсіл арқылы тек 2,2 миллион параметр бапталды, бұл жалпы көлемнің небәрі 0,14%-ы ғана.

Оқыту үдерісінің ерекшеліктері

Оқытуда fp16 есептеу дәлдігі таңдалып, gradient checkpointing пен градиент жинақтау қолданылды. Бұл жады тиімділігін арттырады және есептеу процесінің тұрақтылығын қамтамасыз етеді. Оқыту жылдамдығы 2e-4 деңгейінде орнатылып, косинус түріндегі жылдамдық төмендеу кестесі пайдаланылды. Барлық оқыту кезеңдері HuggingFace Trainer құралымен іске асырылды.

Модельдің жұмыс форматы және сұрақтарға жауап беру

Модельдің әрбір сұраққа жауап беру үрдісі алдын ала дайындалған үлгі бойынша жүзеге асады. Сұрақ, жауаптар төрт опция түрінде ұсынылып, дұрыс жауап пен толық клиникалық түсіндірме беріледі. Модель тек жауап таңдап қана қоймай, сонымен бірге шешім қабылдаудың логикасын түсіндіреді. Мысалы, гипертониялық жедел жағдайда қан қысымын төмендетудің бірінші жолын сұрағанда, модель дұрыс жауап ретінде «IV лабеталол немесе IV нитропруссид» деп белгілеп, оның себебін баяндап көрсетеді.

Практикалық артықшылықтары және қолданыс аясындағы әсері

MedQA жобасы медициналық сұрақтарға шұғыл әрі дәл жауап беруді қамтамасыз етеді. AMD ROCm платформасының қолдауымен мұндай шешім экономикалық және техникалық жағынан қолайлы әрі көпшіліктің қолжетімділігін арттырады. CUDA талаптарынсыз жоғары өнімділікке қол жеткізу клиникалық жүйелерді әртүрлі аппараттық жабдықтарда іске асыруға мүмкіндік береді. Бұл әсіресе NVIDIA құралына тәуелділікті төмендетіп, ашық кодты жобалардың дамуына септігін тигізеді.

Қорытынды

MedQA – клиникалық сұрақтарды шешуге бағытталған жасанды интеллект моделін AMD MI300X құрылғысында ROCm экожүйесінде CUDA тәуелділігісіз оқытудың сәтті мысалы. LoRA әдісі және үлкен жедел жады ресурстары оқытуды жеңілдетіп, жылдам әрі тиімді етеді. Бұл жоба медициналық жасанды интеллектіні дамытуда аппараттық еркіндік пен экономикалық тиімділікті арттыруға үлес қосады.

TAGS: жасанды интеллект, медицина, AMD ROCm, LoRA, Qwen3, MedMCQA, клиникалық сұрақтар

Дереккөз: Hugging Face Blog

Басқа жаңалықтар

Back to top button