Published 2025-05-02
Keywords
- O‘zbek tili milliy korpusi, korpus lingvistikasi, leksikgrammatik teglash, korpus platformalari, kollokatsiya, KWIC (Key Word in Context), lingvistik teglash, metama’lumotlar (metadata).
Abstract
O‘zbek tili milliy korpusi tilshunoslik, adabiyotshunoslik va sunʼiy intellekt sohalarida qo‘llaniladigan murakkab tizim bo‘lib, uning tuzilishi matnlar to‘plami, annotatsiya qatlamlari va maʼlumotlar bazasi arxitekturasi asosida shakllantirilgan. Korpusning asosiy komponentlariga turli davrlar (zamonaviy, tarixiy), janrlar (badiiy, ilmiy, rasmiy) va dialektlardagi matnlar, shuningdek, ularga qo‘shilgan morfologik, sintaktik va semantik annotatsiyalar kiradi. Ushbu maqolada korpusning tuzilishi, asosiy komponentlari va undagi axborot turlari atroflicha o‘rganiladi. Tadqiqot korpus lingvistikasi usullariga asoslanib, matnlarning turli janrlari va manbalarini tahlil qiladi. Korpus matnlar to‘plami, morfologik, sintaktik va semantik annotatsiya, metama’lumotlar va qidiruv tizimi kabi asosiy qismlardan iborat ekani aniqlanadi. Natijalar shuni ko‘rsatadiki, korpus turli davrlar va janrlarga oid matnlarni qamrab, tilshunoslik tadqiqotlari va sun’iy intellekt loyihalari uchun katta imkoniyatlar beradi. Korpusning foydalanuvchilar uchun qulay interfeysi va qidiruv vositalari uning qo‘llanilishini yanada samarali qiladi. Maqolada korpusning kelajakda rivojlanishi, xususan, annotatsiya sifatini oshirish va yangi texnologiyalar bilan integratsiya qilish bo‘yicha takliflar beriladi. Ushbu tadqiqot o‘zbek tili milliy korpusining ahamiyatini ochib beradi va tilshunoslar hamda texnologlar uchun
qimmatli resurs bo‘lib xizmat qiladi.