Vol. 1 No. 1 (2023): COMPUTER LINGUISTICS: PROBLEMS, SOLUTIONS, PROSPECTS
Articles

AUTOMATIC DETECTION TECHNOLOGIES FOR STOPWORDS IN UZBEK LANGUAGE

Aziz Iskandarov
Urganch davlar universiteti
Boburjon Shermatov
Urganch davlar universiteti
Elmurod Kuriyozov
Urganch davlar universiteti

Published 2023-04-30

Keywords

  • O‘zbek tili, nomuhim so‘zlarni aniqlash, mashinali o‘qitish.

Abstract

Nomuhim so‘zlar (stopwrods) tabiiy tilni qayta ishlashda (NLP) keng tarqalgan masala bo‘lib, matnni tahlil qilish, ma’lumotlarni qidirish va boshqa NLP ilovalarida muammolarni keltirib chiqarishi mumkin. Ushbu tadqiqot ishida oʻzbek tilida nomuhim soʻzlarni avtomatik aniqlash texnologiyalarini ishlab chiqishga eʼtibor qaratilgan. Biz oʻzbek matnlarida nomuhim soʻzlarni aniqlash uchun mashinali oʻrganish (machine learning) algoritmlariga, xususan, Support Vector Machines (SVM) va Random Forest (RF) tasniflagichlariga asoslangan metodologiyani taqdim etamiz. Bizning metodologiya o‘zbek tilida oʻtkazilgan oldingi tadqiqotdan olingan “Maktab korpusi” deb nomlangan oʻzbek tilidagi matnlarning qoʻlda annotatsiya qilingan maʼlumotlar toʻplamidan foydalangan holda baholanadi va baholash natijalari yuqori aniqlik koʻrsatkichlariga erishdi. Natijalarimiz shuni ko‘rsatadiki, taklif etilayotgan yondashuv o‘zbek matnlarida nomuhim so‘zlarni aniqlashning samarali usuli bo‘lib, o‘zbek tilidagi matnlarni qayta ishlash uchun NLP ilovalari ish faoliyatini yaxshilashda ishlatilishi mumkin.