Published 2025-05-02
Keywords
- o‘zbek tili, hikoyaviy matnlar, sintaktik bog‘lanish, daraxt korpusi, lemmatizatsiya, morfologik belgilash, Universal Dependencies, INCEpTION platformasi, annotatsiya, kompyuter lingvistikasi, tabiiy tilni qayta ishlash (NLP)
Abstract
Ushbu maqolada o‘zbek tilidagi matnlardan olinadigan sintaktik iyerarxik bog‘lanishli daraxt korpusini yaratish haqida so‘z boradi. Maqsad – o‘zbek tili uchun so‘zlararo sintaktik munosabatlarni aniq belgilangan daraxt ko‘rinishida tasvirlash korpusini shakllantirish. Korpus materiali sifatida zamonaviy adib Shuhrat Matkarimning “Boljon” to‘plamidan olingan 30 ta sifatli jumla tanlab olindi. Ushbu jumlalar INCEpTION platformasi yordamida ikki nafar annotator tomonidan lemmatizatsiya, morfologik belgilash va sintaktik bog‘lanishlarni qo‘lda belgilandi, so‘ngra kuratsiya (birlashtirish) bosqichi orqali yakuniy kelishuvga
erishildi. Natijada, o‘zbek tilidagi hikoyaviy uslub uchun birinchi bog‘lanishli daraxt korpusi yaratildi va undagi sintaktik xususiyatlar tahlil qilindi. Asosiy natijalar shuni ko‘rsatadiki, mazkur korpus kelgusida o‘zbek tili uchun sintaktik tahlil, mashinaviy tarjima hamda ta’limiy lingvistik vositalar uchun asos bo‘la oladi.