Published 2026-05-31
Keywords
- Parallel korpus, reprezentativlik, balanslash, korpus lingvistikasi, alignment, janr xilma-xilligi, metadata, Neyron mashina tarjimasi, data sparsity, subword modeling.
Abstract
Ushbu maqolada parallel korpuslarning reprezentativligi va balanslash muammolari lingvistik hamda korpus lingvistikasi nuqtai nazaridan tahlil qilinadi. Parallel korpusning til materialini real kommunikativ holatda qanchalik to‘liq aks ettirishi, uning ilmiy va amaliy qiymatini belgilovchi asosiy omillardan biri sifatida qaraladi. Tadqiqotda reprezentativlik tushunchasining nazariy asoslari, korpusni balanslash metodlari hamda amaliyotda uchraydigan asosiy muammolar yoritiladi. Shuningdek, ushbu muammolarning neyron mashina tarjimasi tizimlariga ta’siri tahlil qilinadi. Maqolada korpus sifatini oshirishga qaratilgan stratifikatsiya, metadata asosida boshqarish va preprocessing yondashuvlari ham ko‘rib chiqiladi.