Том 1 № 1 (2025): КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: ПРОБЛЕМЫ, РЕШЕНИЯ, ПЕРСПЕКТИВЫ
Статьи

SENTIMENT TAHLIL UCHUN KATTA HAJMDAGI DATASETNI YARATISH BOSQICHLARI

Botir Elov
Alisher Navoiy nomidagi Toshkent davlat oʻzbek tili va adabiyoti universiteti
Биография

Опубликован 2025-05-03

Ключевые слова

  • Sentiment tahlil, NLP, dataset yaratish, ma’lumotlarni tayyorlash, katta hajmdagi dataset, lingvistik annotatsiya, Inter-annotator kelishuv.

Аннотация

Oʻzbek tilida sentiment tahlilni rivojlantirishning asosiy toʻsiqlaridan biri – lingvistik xususiyatlar va yetarli hajmdagi sifatli maʼlumotlar toʻplamining yoʻqligidir. Ushbu maqolada sentiment tahlil uchun katta hajmdagi datasetni yaratish jarayoni uch bosqichli tizim asosida tahlil qilinadi. Avvalo, birinchi bosqichda yaratiladigan datasetning maqsadi, sifat mezonlari va foydalanish sohasi aniqlanib, ilmiy talablar ishlab chiqiladi. Ikkinchi bosqichda, turli axborot manbalari – ijtimoiy tarmoqlar, forumlar, bloglar, onlayn sharhlar va yangilik portallaridan xom ma’lumotlar yig‘ilib, ularning dolzarbligi va ishonchliligi tahlil qilinadi. Uchinchi bosqichda esa, yig‘ilgan ma’lumotlar tozalash, normalizatsiya, tokenizatsiya va lemmatizatsiya kabi ishlov berish operatsiyalari yordamida mos va strukturallashgan dataset shakllantiriladi. Shuningdek, annotatsiya va balanslash jarayonlari orqali har bir sentiment kategoriyasining teng va to‘liq aks etishi ta’minlanadi. Ushbu tizimli yondashuv ma’lumotlarning lingvistik, semantik va statistik jihatlarini hisobga olib, sentiment tahlil modellari uchun yuqori aniqlikdagi korpus yaratishga xizmat qiladi. Tadqiqot natijalari yaratilgan datasetning sifatli va ishonchli ekanligini, shuningdek, sentiment tahlil algoritmlarining samaradorligini oshirishga hissa qo‘shishini ko‘rsatadi. Ushbu tadqiqot sentiment tahlil uchun katta hajmdagi datasetni yaratishning ilmiy asoslangan bosqichlarini taqdim etib, sohada innovatsion yechimlarni ilgari suradi.