Жылдам Көптілді OCR Моделін Синтетикалық Мәліметтер Қолдана Жасаудың Тәсілдері

Көптілді оптикалық таңбаларды тану (OCR) технологиясы – әртүрлі тілдерде жазылған мәтіндерді цифрлық форматқа түрлендіруге бағытталған маңызды технология. Бұл салада тиімді әрі жылдам жұмыс істейтін жүйе құру тілдік әртүрлілік пен құрылымдық күрделілікті ескеру тұрғысынан аса талап қойылады. Жасанды интеллектің дамуы арқасында, синтетикалық мәліметтерді қолданып, OCR модельдерін жетілдіру – сапалы және көптілді нәтижелер алудың бірегей жолы ретінде қарастырылады.
Жүйенің негізі – деректер, оның құрылымы емес
Құрылымдық тұрғыдан Nemotron OCR v2 моделі Fast Oriented Text Spotting (FOTS) негізінде ұйымдастырылған. Бұл архитектура мәтіннің анықтамасын және тануын бір жүйеге біріктіріп, ортақ сызықты конволюциялы негіз пайдаланады. RegNetX-8GF талдау торапшасы бір рет өңдеген кескіннен ерекшеліктер картасын шығарады, ол кейін мәтін тану және қатынастық модельдер үшін қайта қолданылады. Танушы кішкентай трансформерді қолданып, анықталған мәтіндік аймақтарды шешеді. Ал қатынастық модель осы ерекшеліктер негізінде кішкентай трансформер энкодерінің көмегімен әр аймақ арасындағы байланысты бағалайды. Осылайша, конволюциялық өңдеу бір рет жасалып, басқа бөлімдерге қосымша ауыртпалық аз түседі. Нәтижесінде, модель бір A100 GPU-де секундына 34,7 беттік жылдамдықпен жұмыс істейді.
Синтетикалық мәліметтердің маңызы
Жоғары сапалы OCR жүйесін даярлау үшін миллиондарының санына жететін төмен қателікті таңбалық суреттер қажет. Бұл суреттерде мәтіннің нақты шекаралары мен транскрипциясы міндетті түрде болуы тиіс. Қалыптасқан практикаларда бұл мәліметтерді жинау шектеулі және қымбаттылығы жоғары. Мысалы, ICDAR және Total-Text сияқты датасеттер сапалы, бірақ көлемі аз, көбіне ағылшын мен қытай тілдеріне шоғырланған. Қолмен аннотация жасаудың жоғары шығыны мен уақыт үнемсіздігі де проблемаларды көбейтеді. Интернеттен жинақталған PDF файлдары көлемі үлкен болса да, мәтіннің дұрыс шығырылмауы (тек сызықтардан тұруы немесе залалданған OCR қабаты) ақпараттың тазалығын азайтады.
Синтетикалық мәліметтер жасау – осы қиындықтарды шешуге мүмкіндік береді. Мәтіндерді кескінге бағдарламалау арқылы қолмен аннотациядан тазалығы және масштабтылығы бойынша тиімді мәліметтер базасын құруға болады. Оқытуға арналған шын мәніндегі мәтін орналасуы, қаріп типтері, орналасу үйлесімділігі толық бақылауда болады. Алайда, шынайылықты қамтамасыз ету – ең күрделі міндет. Түрлі орналасулар мен форматтар, қаріп, түс, фонның өзгерістері арқылы өту арқылы модельдің нақты ортаға бейімделу деңгейі артады.
Контекст пен мысалдар
Nemotron OCR v1 моделі негізінен ағылшын тіліне бағытталған және көптілді мәтіндерді оқуда төмен нәтиже көрсетті. Мысалы, SynthDoG сынақ пакетінде оның қателік көрсеткіші жапон, корей, орыс және қытай тілдерінде 0,56-0,92 аралығында болды. Бұл көрсеткіш шын мәніндегі мәтіннен тым алшақ екенін білдіреді. v1 моделі 855 таңбадан тұратын жиынтыққа ғана тән болды, ол CJK және кириллица таңбаларын толық қамти алмады. Таңба жиынтығын 14 244 таңбаға кеңейту аздап жақсарды, бірақ нақты материалсыз бұл пайда мардымсыз болды. Сондықтан, мәселе құрылымда емес, жеткілікті және сапалы деректер жинағында екені анықталды.
Синтетикалық деректер генерациясы – бұл мәселеге шешім. mOSCAR үлкен көптілді веб-корпусы сөздік емес, шынайы мәтін үлгілерімен қамтамасыз етеді, 163 тілдің мәтін деректерін ұсынады. Ал модификацияланған SynthDoG генераторы үш деңгейдегі пикселдік дәлдікпен мәтіндік бөліктердің (сөз, жол, абзац) координаталарын және оқу тәртібін көрсететін құжат кескіндерін шығарады.
Оқу тәртібі маңызды элемент болып табылады, мұндай ақпарат көпшілік OCR жүйелерінде жоқ, бірақ тілдің құрылымын дұрыс шешуге мүмкіндік береді. Сонымен қатар, модельге әртүрлі орналасулар енгізіледі: көп бағанды мәтін, вертикаль мәтін (жапон мен қытай тілдері үшін), кестелер, мазмұн беттері, презентация слайдтары және құжат беттері. Бұл көптүрлілік модельдің шынайы құжаттармен жұмыс істеген кездегі тұрақтылығын арттырады.
Көптілділікке ерекше тәсіл
Кейбір тілдердің (қытай, жапон) сөздерді ажырату ерекшелігі басқаша, өйткені оларда сөз аралықтары болмайды, ал корей тілінде ол үйлесімді емес. Сондықтан, Nemotron OCR v2 жол деңгейінде тануды қолдайды, ол тілдік ерекшеліктерді ескеруді жеңілдетеді. Ал ағылшын тілі үшін сөз деңгейінде тану сақталған.
Қаріптер мен өзгерістер
Каріптердің ашық бастапқы қоры Google Fonts пен Noto жиынтығынан 165-тен 1258-ге дейін тілге арналған әртүрлі стильдер – сивр, қолжазба және өзге де символогифтермен қамтамасыз етілді. Әрбір бет бірнеше кездейсоқ эффектілер мен өзгерістерге ұшырады, бұл модельдің өзгеше жағдайларды дұрыс тануына мүмкіндік берді.
Практикалық маңызы
Осындай деректер мен архитектураның үйлесімі Nemotron OCR v2 моделінің көптілді мәтіндерді жоғары дәлдікпен және ерекше жылдамдықпен тануына мүмкіндік берді. Барлық алты тілде 12 миллионнан астам синтетикалық суреттер қолданылады, NED көрсеткіштері 0,035-тен 0,069-ға дейін төмендеді, бұл құжаттарды нақты оқудың жоғары деңгейін білдіреді. Қолдану аясына түрлі құжаттарды цифрландыру, деректерді автоматты енгізу, көптілді кітапхана мен мұрағаттарды өңдеу кіреді.
Модель әрі дерекқор ашық және қолжетімді, оны кез келген зерттеуші немесе әзірлеуші пайдалана алады. Бұл мүмкіндіктер елдер мен ұйымдарға өздерінің көптілділік талаптарына сай технологияларды жасауға жол ашады.
Қорытынды
Көптілді OCR моделін құрудағы ең үлкен кедергі – деректердің тапшылығы мен сапасының төмендігі. Синтетикалық мәліметтерді қолдану бұл мәселеге шешім деуге негіз бар. Nemotron OCR v2 мысалында көрініп тұрғандай, дұрыс ұйымдастырылған дерек генерациясы мен жылдам әрі тиімді архитектураны біріктіру көптілді мәтінді жоғары жылдамдықпен және дәлдікпен анықтауға мүмкіндік береді. Болашақта осындай тәсілдер өсіп, түрлі салаларда тиімді қолданылатыны сөзсіз.
Дереккөз: Hugging Face Blog



