Vol. 1 No. 1 (2025): COMPUTER LINGUISTICS: PROBLEMS, SOLUTIONS, PROSPECTS
Articles

SENTIMENT TAHLIL UCHUN KATTA HAJMDAGI DATASETNI YARATISH BOSQICHLARI

Botir Elov
Tashkent State University named after Alisher Navoi University of Uzbek language and literature
Bio

Published 2025-05-03

Keywords

  • Sentiment tahlil, NLP, dataset yaratish, ma’lumotlarni tayyorlash, katta hajmdagi dataset, lingvistik annotatsiya, Inter-annotator kelishuv.

Abstract

Oʻzbek tilida sentiment tahlilni rivojlantirishning asosiy toʻsiqlaridan biri – lingvistik xususiyatlar va yetarli hajmdagi sifatli maʼlumotlar toʻplamining yoʻqligidir. Ushbu maqolada sentiment tahlil uchun katta hajmdagi datasetni yaratish jarayoni uch bosqichli tizim asosida tahlil qilinadi. Avvalo, birinchi bosqichda yaratiladigan datasetning maqsadi, sifat mezonlari va foydalanish sohasi aniqlanib, ilmiy talablar ishlab chiqiladi. Ikkinchi bosqichda, turli axborot manbalari – ijtimoiy tarmoqlar, forumlar, bloglar, onlayn sharhlar va yangilik portallaridan xom ma’lumotlar yig‘ilib, ularning dolzarbligi va ishonchliligi tahlil qilinadi. Uchinchi bosqichda esa, yig‘ilgan ma’lumotlar tozalash, normalizatsiya, tokenizatsiya va lemmatizatsiya kabi ishlov berish operatsiyalari yordamida mos va strukturallashgan dataset shakllantiriladi. Shuningdek, annotatsiya va balanslash jarayonlari orqali har bir sentiment kategoriyasining teng va to‘liq aks etishi ta’minlanadi. Ushbu tizimli yondashuv ma’lumotlarning lingvistik, semantik va statistik jihatlarini hisobga olib, sentiment tahlil modellari uchun yuqori aniqlikdagi korpus yaratishga xizmat qiladi. Tadqiqot natijalari yaratilgan datasetning sifatli va ishonchli ekanligini, shuningdek, sentiment tahlil algoritmlarining samaradorligini oshirishga hissa qo‘shishini ko‘rsatadi. Ushbu tadqiqot sentiment tahlil uchun katta hajmdagi datasetni yaratishning ilmiy asoslangan bosqichlarini taqdim etib, sohada innovatsion yechimlarni ilgari suradi.