Abstract
Til korpusini morfologik tahlil qilish uchun uni morfologik teglash eng muhim NLP vazifalaridan biri hisoblanadi, chunki u korpusni sintaktik, semantik va pragmatik tahlil qilish uchun muhim qadam hisoblanadi. O‘zbek tilidagi til birliklarining morfologik teglash qo‘lda va yarim avtomatik tarzda amalga oshiriladi. Korpus matnlarini teglash chatbotlar, virtual yordamchilar, qidiruv tizimlari va mashina tarjimasi kabi tabiiy tilni qayta ishlash (NLP) ilovalarida asosiy amal hisoblanib, u sun’iy intellekt modellariga inson tili va muloqotni yanada samaraliroq tushunishga yordam beradi. Korpus matnlarini annotatsiyalash yoki teglash orqali so‘z, ibora, so‘z birikmasi shu kabi leksik birliklarni izohlash kabi matnga teg (izoh) qo‘shish va ularni belgilashdan iborat. Mashinali o‘rgatishda matn annotatsiyasi – bu mashinali o‘rgatish modellariga inson tilini tushunish va qayta ishlashda yordam berish uchun matnga metama’lumotlar yozish jarayoni. Yuqori sifatli ma’lumotlar to‘plami sun’iy intellektni o‘qitishda juda muhim, chunki ular AI modellarining ishlashi, aniqligi va ishonchliligiga bevosita ta’sir qiladi. Matnni teglash orqali kalit so‘zlarni ajratib olish evaziga qidiruv tizimi natijasini optimallashtirish mumkin. ToshDO‘TAU Kompyuter lingvistikasi va raqamli texnologiyalari kafedrasi olimlari tomonidan til korpusi uchun maxsus teglar to‘plami ishlab chiqilgan bo`lib, oʻzbek tilidagi soʻzlardagi gap boʻlaklari va qoʻshimchalari birikmalarining eng keng tarqalgan affikslarini aniqlanib, ularni belgilangan teglar asosida tahlil qilish, til korpusining yanada rivojlanishiga asos boʻlib xizmat qilishi mumkin. Til korpusini morfologik teglash uchun 12 dan ortiq maxsus teglar tanlab olindi va korpusda nutq birliklari teglandi.