PP-OCRv6: көптілді мәтінді тану және анықтау үшін жеңіл модельдер отбасы

Жасанды интеллект пен компьютер көру технологияларының дамуы мәтін тану жүйелерін жаңа деңгейге көтеруде. Автоматты мәтінді оқу жүйелері (OCR) әртүрлі тілдегі мәтіндерді, суреттердегі және құжаттардағы жазбаларды және күрделі көріністердегі белгілерді дәл анықтап, құрылымдауға мүмкіндік береді. Бұл салада PP-OCRv6 үлгісінің пайда болуы мәтін тану жүйелерінің көптілділік және икемділік мәселелерін шешуде маңызды қадам саналады.
PP-OCRv6 моделі туралы негізгі түсінік
PP-OCRv6 — PaddleOCR жүйесінің соңғы нұсқасы және көптілді мәтін тану мақсатында әзірленген жеңіл және икемді модельдер жиынтығы. Бұл үлгі отбасында үш түрлі көлемдегі модель бар: миниатюралық (1,5 млн параметр), кіші (7,7 млн параметр) және орташа (34,5 млн параметр). Орташа және кіші модельдер 50 тілде, оның ішінде жеңілдетілген және дәстүрлі қытай, ағылшын, жапон, сонымен бірге 46 латын әліпбиіндегі тілдерді тануға мүмкіндік береді. Модель мәтінді дәл және құрылымдық түрде анықтауға бағытталған, бұл оның практикалық қолданысын кеңейтеді.
Архитектура мен технологиялық ерекшеліктер
Үш модель топтамасы
Модельдердің көлемі мен дәлдігі әр түрлі қолдану сценарийлеріне бейімделген. Миниатюралық нұсқасы шектеулі қуатты құрылғыларға және жылдамдық маңызды қосымшаларға сай келеді. Кіші үлгі мобильді және үстелдік компьютерлер үшін оңтайлы, ал орташа модель деректерді көп өңдеуді талап ететін серверлік және өндірістік процестерге арналған. Модельдердің өнімділігі жоғары, анықтау орташа деңгейде 80,6%-дан 86,2%-ға дейін, тану дәлдігі 73,5%-ден 83,2%-ға дейін жетеді.
PPLCNetV4 арқалық желісі
Барлық үш үлгі біртұтас архитектураны пайдаланады. Бұл модельдерде негіз ретінде PPLCNetV4 арқалық желісі қолданылады, ол мәтін анықтау мен тану функцияларын үйлесімді жүзеге асырады. Мұндай тәсіл модель отбасының әрбір мүшесінің үйлесімді жұмыс істеуіне және бірізділік сақталуына ықпал етеді.
Мәтін анықтау үшін RepLKFPN құрылымы
Мәтін анықтау OCR жүйесінің алғашқы және аса маңызды кезеңі болып табылады. PP-OCRv6 көпмасштабты мәтінді тиімді тану үшін RepLKFPN атты жеңіл әрі үлкен ядролы ерекшелік пирамидасын пайдаланады. Бұл технология күрделі бейнелерде, шағын немесе бұрмаланған мәтіндерде де жақсы нәтижеге қол жеткізуге мүмкіндік береді.
Мәтін тану үшін EncoderWithLightSVTR
Тану кезеңінде жаһандық назар және жергілікті контексті моделдеу құралдарын біріктіретін EncoderWithLightSVTR қолданылып, тану сапасын арттырады. Бұл ерекше символдар, көптілді мәтін және шуды кескіндерде де тиімді жұмыс істеуге жағдай жасайды.
Контекст пен қолдану мысалдары
PP-OCRv6 үлгісі көптілді мәтінді тану қажеттіліктеріне арнайы бейімделген. Мұндай модельдер офис құжаттарын өңдеу, цифрлық дисплейлердегі мәтіндерді түсіру, өндірістік белгілерді оқу және көрініс мәтіндерін талдау сияқты әртүрлі жағдайларда қолданылады. Мысалы, серверлік талдау жүйелерінде орташа үлгі құжаттардағы мәтінді жылдам әрі сапалы тану үшін пайдаланылады, ал мобильді құрылғылар үшін жеңіл үлгілер тез және ресурсты үнемді пайдаланады.
PP-OCRv6-ны іске қосу үшін әзірлеушілер PaddleOCR мен байқау интерфейстерін, сондай-ақ Hugging Face платформасындағы әртүрлі дайын моделдерді пайдалана алады. Бұл үлгіні әртүрлі орындарда – мобильді құрылғылардан бастап үстелдік компьютерлерге және серверлерге дейін оңай интеграциялауға мүмкіндік береді.
Практикалық маңызы және қолдану ыңғайлылығы
Модельдің қолданыстағы бірнеше инференс (нәтижені есептеу) жүйелері бар. Бұған Paddle Inference, Transformers және ONNX Runtime сияқты ортақ интерфейстер кіреді. Бұл шешімдер әртүрлі жүйелерге үлгіні оңай енгізуге мүмкіндік береді. Мәтінді тану нәтижесі құрылымдық JSON форматында сақтала отырып, әрі қарай құжаттарды талдау, іздеу, ақпарат алу, аналитика немесе агенттік тапсырмалар жүйелерінде қолдануға ыңғайлы.
Инфраструктура мен модельдердің жеңіл болуы, көптілділікті қолдау және дәлдіктің жоғарылығы OCR шешімдерін кеңінен таратуға жағдай жасайды, әрі автоматтандырылған жүйелердің сапасын арттырады. PP-OCRv6 технологиясы цифрландыру процесіндегі кедергілерді азайтып, ақпарат алмасу мен өңдеуді тиімді етеді.
Қорытынды
PP-OCRv6 үлгісі көптілді, жеңіл және жоғары өнімді OCR жүйелерін ұсыну арқылы мәтін тану саласына жаңа стандарт енгізді. Үш түрлі көлемдегі модельдерді ұсыну, жетілдірілген архитектуралар мен көптілді қолдау оның кеңірек қолдану аясын қамтамасыз етеді. Осы арқылы мәтін тану тапсырмаларын әр түрлі құрылғыларда және сценарийлерде тиімді шешуге мүмкіндік туады.
Дереккөз: Hugging Face Blog



