Мақалалар

Билингвалық тұтынушыларды дауыс агенттері түсіне ала ма? – Frontier ASR жүйелерін код араластыру даусында сараптау

Кіріспе

Әлем халқының жартысынан астамы бірнеше тілде сөйлейді. Осы көптілділіктің бір көрінісі ретінде код араластыру – екі немесе одан да көп тілдер арасында сөйлеу барысында тұтас ауысу – күнделікті қарым-қатынас мәдениетінде кеңінен тараған құбылыс. Әсіресе екі тілді адамдар әңгімесін тоқтамай, сөздің ортасында тіл ауыстыруды табиғи деп қабылдайды. Оның әсері тұтынушылармен сөйлесетін дауыс агенттерінің жұмысына да сезіледі. Сонымен қатар, кәсіпкерлік орталарда, мысалы клиенттердің сұрауларына жедел жауап беретін орталықтар мен IT техникалық қолдау қызметтерінде, мұндай код араласқан сөйлеумен жұмыс жасау күрделі әрі маңызды тапсырмаға айналады.

Осындай ахуалға байланысты, дауыс агенттерінің код араласқан сөйлеуді қаншалықты дәл қабылдап, түсіне алатынын тексеру мақсатында, Frontier автоматтандырылған дауыс тану жүйелерінің (ASR) жұмысы арнайы дайындалған тестілік жинақтар негізінде бағаланды. Бұл тест негізінде спич-транскрипцияның дәлдігін ғана емес, сонымен бірге алынған мәтіннің мәнін сақтауы да өлшеніп, талдаудың кешенді қызметі жасалды.

Негізгі түсіндірме

Автоматты дауыс тану жүйелерін код араласқан тілдік сөйлеуде бағалау үшін келесі басты көрсеткіштер қолданылды: сөз қатесі деңгейі (WER – Word Error Rate), семантикалық сөз қатесі деңгейі (SWER – Semantic Word Error Rate) және жауап қатесі деңгейі (AER – Answer Error Rate). Бұл үш өлшем мәтінді жазбаша дәл аудару ғана емес, алынған мәтіннен кейін жүйенің сұрақтарға дұрыс жауап бере алу қабілетін де сипаттайды. Осындай толық бағалау әдісі дауыс агенттерінің жұмысындағы транскрипция қатесінен туындайтын міндеттердің ықпалының деңгейін дұрыс айқындауға мүмкіндік береді.

Тестілеу үшін код араластырылған сөйлеу төрт тіл жұбы бойынша құрылды: испан-инглиз, француз-инглиз, канадалық француз-инглиз және неміс-инглиз. Әрбір сөйлем негізінен негізгі тіл ретінде ағылшыннан басқа тілде құрылып, ішіне ағылшын сөзі әр түрлі ұзындықтарда еніп отырды. Тестілік мәліметтер HR (адам ресурстары) және ITSM (IT қызмет көрсету басқармасы) саласындағы нақты сұраулар мен жағдайларды қамтиды. Мысалы, жалақы туралы сұрау, құпиясөзді қалпына келтіру немесе VPN желісіне қосылу сұраулары.

Контекст және мысалдар

Деректердің дайындалу кезеңі бірнеше қадамнан тұрды. Алдымен әр тіл бойынша параллель сөйлемдер таңдалды, сөздік құрамы код араласуға сәйкес талаптарға сай қатал сүзгілерден өтті: сөйлем ұзындығы 12-ден 40 сөз аралығында, құрылымында үштен кем емес ауыстырылатын мазмұнды сөз болуы, және шоттар, телефон нөмірлері сияқты тұрақты деректерден аз босатылған сөйлемдер іріктелді.

Одан кейін үзінділер OpenAI GPT-5 секілді ірі тілдік модельдердің көмегімен код араластыру стиліне сәйкес синтезделді, аудио ElevenLabs Multilingual V2 арқылы құрылды. Осыдан кейін әр сөйлем тілінің тумасы тіл маманы тарапынан тексеріліп, сәйкессіз сөйлемдер түзетіліп не алынып тасталды. Нәтижесінде 259 испан-инглиз, 298 француз-инглиз, 188 канадалық француз-инглиз және 173 неміс-инглиз сөйлемінен тұратын жинақ дайындалды.

Практикалық маңызы

Бақылау нәтижелері көп аспектілі талдауға мүмкіндік берді. Кейбір жүйелер – ElevenLabs Scribe V2, Gemini 3 Flash және AssemblyAI Universal 3-Pro – WER бойынша ең үздік көрсеткіштерді көрсетті. Бұл жүйелер транскрипцияның дәлірек болуы арқылы тұтынушылардың сұрауларын дұрыс түсініп, бизнес операцияларды қарқынды әрі тиімді жүргізуге септігін тигізеді.

Алайда код араласу кейбір жүйелердің жұмысында қосымша қателіктер туындатты. Мәселен, OpenAI Whisper моделі код араласу кезінде сөздерді ағылшынша аударуға ауысып, шын мәніндегі транскрипция шығармай, нәтижесінде үлкен қателікке ұшырады. Сонымен қатар, семантикалық дәлдік бойынша Gemini 3 Flash жүйесі ең үздік екені байқалды, яғни ол сөздердің мағынасын тереңірек түсініп, сұрақтарға дұрыс жауап беруге икемділігі жоғары.

Бұл көрсеткіштер кәсіпкерлік сегментте дыбыстық көмекші жүйенің қолдануын жетілдіру, клиенттермен қарым-қатынасты сапалы әрі нақты жүргізу үшін маңызды. Дұрыс танылған сөйлеу компанияларға тұтынушылар сұрауларын жедел өңдеп, жұмыс үдерісін жібермей басқаруға мүмкіндік береді.

Қорытынды

Код араласқан сөйлеуді автоматты түрде тану – көптілді аудиторияға қызмет көрсететін дауыстық агенттердің негізгі сынағы. Frontier ASR жүйелерін код араластырылған сөздерде тестілеу нәтижесі жүйелердің тиімділігі тіл жұбына және модельдің ерекшелігіне қарай әртүрлі екенін көрсетті. Осы тестілеу нәтижелері дауыс агенттерінің өнімділігін жақсарту бағытында әрі жүйелі жетілдіру үшін маңызды дерекқор болып табылады.

Дереккөз: Hugging Face Blog

Басқа жаңалықтар

Back to top button