Том 1 № 1 (2023): КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: ПРОБЛЕМЫ, РЕШЕНИЯ, ПЕРСПЕКТИВЫ
Статьи

AUTOMATIC DETECTION TECHNOLOGIES FOR STOPWORDS IN UZBEK LANGUAGE

Aziz Iskandarov
Urganch davlar universiteti
Shermatov Boburjon
Urganch davlar universiteti
Elmurod Kuriyozov
Urganch davlar universiteti

Опубликован 2023-04-30

Ключевые слова

  • O‘zbek tili, nomuhim so‘zlarni aniqlash, mashinali o‘qitish.

Аннотация

Nomuhim so‘zlar (stopwrods) tabiiy tilni qayta ishlashda (NLP) keng tarqalgan masala bo‘lib, matnni tahlil qilish, ma’lumotlarni qidirish va boshqa NLP ilovalarida muammolarni keltirib chiqarishi mumkin. Ushbu tadqiqot ishida oʻzbek tilida nomuhim soʻzlarni avtomatik aniqlash texnologiyalarini ishlab chiqishga eʼtibor qaratilgan. Biz oʻzbek matnlarida nomuhim soʻzlarni aniqlash uchun mashinali oʻrganish (machine learning) algoritmlariga, xususan, Support Vector Machines (SVM) va Random Forest (RF) tasniflagichlariga asoslangan metodologiyani taqdim etamiz. Bizning metodologiya o‘zbek tilida oʻtkazilgan oldingi tadqiqotdan olingan “Maktab korpusi” deb nomlangan oʻzbek tilidagi matnlarning qoʻlda annotatsiya qilingan maʼlumotlar toʻplamidan foydalangan holda baholanadi va baholash natijalari yuqori aniqlik koʻrsatkichlariga erishdi. Natijalarimiz shuni ko‘rsatadiki, taklif etilayotgan yondashuv o‘zbek matnlarida nomuhim so‘zlarni aniqlashning samarali usuli bo‘lib, o‘zbek tilidagi matnlarni qayta ishlash uchun NLP ilovalari ish faoliyatini yaxshilashda ishlatilishi mumkin.