OʻZBEK TILI NUTQINI ANIQLASH (ASR) TIZIMLARI UCHUN MA’LUMOTLAR TOʻPLAMINI FILTRLASH KONVEYERINI (PIPELINE) ISHLAB CHIQISH VA SAMARADORLIGINI BAHOLASH
Published 2026-05-31
Keywords
- Automatic Speech Recognition, ASR, dataset filtrlash, whisper, kam resursli tillar, oʻzbek tili, nutqni avtomatik tanish, ma’lumotlarni tozalash, word error rate, WER, audio-matn moslashtirish, gallyutinatsiyani kamaytirish.
Abstract
Automatic Speech Recognition (ASR) tizimlarining aniqligi va barqarorligi bevosita trening dataset sifati bilan bogʻliq. Ochiq manbalardan yigʻilgan audio va matn ma’lumotlari koʻpincha notoʻgʻri transkripsiyalar, mos kelmaydigan audio-matn juftliklari hamda nomutanosib namunalarni oʻz ichiga oladi. Ayniqsa low-resource agglutinative tillarda, jumladan oʻzbek tilida, bunday shovqinli ma’lumotlar modelda gallyutsinatsiya, notoʻgʻri token generatsiyasi va Word Error Rate (WER) koʻrsatkichining oshishiga olib keladi. Ushbu tadqiqotda Whisper asosidagi ASR modellar uchun dataset filtrlash pipelineni taklif etiladi. Taklif etilgan yondashuv audio-matn juftliklarini tekshirish hamda audio davomiyligi va transkripsiya uzunligi mutanosibligini nazorat qilish bosqichlarini oʻz ichiga oladi. Tajribalar natijasida 70 mingga yaqin audio-matn juftliklari orasidan 61 081 ta yuqori sifatli juftliklar ajratib olindi. Eksperimental natijalar oʻzbek tili uchun optimal mutanosiblik 1 soniya audio uchun maksimal 4 ta soʻz ekanligini koʻrsatdi. Taklif etilgan filtering strategiyasi ASR modeldagi gallyutsinatsiyalarni kamaytirib, WER koʻrsatkichini sezilarli yaxshiladi.