Vol. 1 No. 1 (2026): COMPUTER LINGUISTICS: PROBLEMS, SOLUTIONS, PROSPECTS
Articles

O‘ZBEK-INGLIZ PARALLEL KORPUSIDA TEGLASH, BILINGVAL KODLASH, SEGMENTLASH, POS TEGLASH VA INDEKSLASH MASALASI

Published 2026-05-31

Keywords

  • parallel korpus, teglash, segmentlash, POS-teglash, indekslash, CoNLL-U, XML, TEI, JSON, bilingval kodlash, Universal Dependencies.

Abstract

Ushbu maqolada o‘zbek-ingliz parallel korpusini yaratish jarayonida muhim bo‘lgan teglash, bilingval kodlash, segmentlash, so‘z turkumlarini avtomatik belgilash (POS-teglash) hamda indekslash masalalari tahlil qilinadi. Korpusni qayta ishlashda ishlatiladigan asosiy formatlar – CoNLL-U, XML, TEI va JSON’ning texnik va lingvistik imkoniyatlari qiyosiy ko‘rib chiqiladi. Har bir formatning afzalliklari, qo‘llanish sohasi va ularning parallel korpusdagi funksional ahamiyati izohlanadi. Tadqiqotda korpusni teglash va kodlashda Universal Dependencies, TEI P5 hamda XML strukturalarining birlashtirilgan modeli tavsiya etiladi. Shuningdek, segmentlash va indekslash jarayonlarining korpusda qidiruv, statistik tahlil va avtomatik tarjima tizimlaridagi roli ilmiy asosda yoritiladi. Maqola natijalari o‘zbek tilining kompyuter lingvistikasi sohasida zamonaviy xalqaro standartlarga integratsiyalashuviga xizmat qiladi.