Том 1 № 1 (2026): КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: ПРОБЛЕМЫ, РЕШЕНИЯ, ПЕРСПЕКТИВЫ
Статьи

O‘ZBEK-INGLIZ PARALLEL KORPUSIDA TEGLASH, BILINGVAL KODLASH, SEGMENTLASH, POS TEGLASH VA INDEKSLASH MASALASI

Опубликован 2026-05-31

Ключевые слова

  • parallel korpus, teglash, segmentlash, POS-teglash, indekslash, CoNLL-U, XML, TEI, JSON, bilingval kodlash, Universal Dependencies.

Аннотация

Ushbu maqolada o‘zbek-ingliz parallel korpusini yaratish jarayonida muhim bo‘lgan teglash, bilingval kodlash, segmentlash, so‘z turkumlarini avtomatik belgilash (POS-teglash) hamda indekslash masalalari tahlil qilinadi. Korpusni qayta ishlashda ishlatiladigan asosiy formatlar – CoNLL-U, XML, TEI va JSON’ning texnik va lingvistik imkoniyatlari qiyosiy ko‘rib chiqiladi. Har bir formatning afzalliklari, qo‘llanish sohasi va ularning parallel korpusdagi funksional ahamiyati izohlanadi. Tadqiqotda korpusni teglash va kodlashda Universal Dependencies, TEI P5 hamda XML strukturalarining birlashtirilgan modeli tavsiya etiladi. Shuningdek, segmentlash va indekslash jarayonlarining korpusda qidiruv, statistik tahlil va avtomatik tarjima tizimlaridagi roli ilmiy asosda yoritiladi. Maqola natijalari o‘zbek tilining kompyuter lingvistikasi sohasida zamonaviy xalqaro standartlarga integratsiyalashuviga xizmat qiladi.