Published 2025-05-02
Keywords
- Til modellari, n-gram til modeli, unigram, modelni baholash, Laplas silliqlash, mashinali oʻqitish.
Abstract
Korpus lingvistikasi zamonaviy tilshunoslikning muhim yo‘nalishlaridan biri bo‘lib, tilning haqiqiy foydalanishini aks ettiruvchi katta hajmdagi matnlar to‘plamini tahlil qilishga asoslanadi. Korpus tilning turli kontekstlarda qo‘llanilishini namoyon etuvchi, maxsus tanlangan va tizimlashtirilgan matnlar bazasiga aytiladi. Bu soha tilni o‘rganishda empirik ma’lumotlarga tayanish imkonini beradi va tilshunoslik nazariyalarini sinovdan o‘tkazishda muhim vosita sifatida xizmat qiladi. O‘zbek tili milliy korpusi esa ushbu umumiy yondashuvning mahalliy ilovasi sifatida o‘zbek tilining o‘ziga xos xususiyatlarini saqlash, hujjatlashtirish va zamonaviy texnologiyalar bilan integratsiya qilishda markaziy o‘rin tutadi. O‘zbek tili korpusi nafaqat tilshunoslik tadqiqotlari uchun muhim resurs, balki sun’iy intellekt (SI) va tabiiy tillarni qayta ishlash (NLP) texnologiyalari uchun ham asosiy ma’lumotlar bazasi hisoblanadi. Ushbu maqolada o‘zbek tili korpusining tarixiy rivojlanishi, uning maqsadlari va vazifalari batafsil tahlil qilinadi.