Abstract
Korpus matnlarini teglash chatbotlar, virtual yordamchilar, qidiruv tizimlari va mashina tarjimasi kabi tabiiy tilni qayta ishlash (NLP) ilovalarida asosiy amal hisoblanib, u sun’iy intellekt modellariga inson tili va muloqotni yanada samaraliroq tushunishga yordam beradi. NLP ilovalaridagi o‘quv ma’lumotlarini teglashdagi noaniqliklar AI modellarini real jahonda mavjud ilovalarida ishlamay qolishiga olib kelishi mumkin. Gartner hisobotiga ko‘ra, 8% noto‘g‘ri ta’lim ma’lumotlarini kiritish sun’iy intellektning aniqligini 75%ga kamaytirishi mumkin. Korpus matnlarini annotatsiyalash yoki teglash orqali so‘z, ibora, so‘z birikmasi shu kabi leksik birliklarni izohlash kabi matnga teg (izoh) qo‘shish va ularni belgilashdan iborat. Ushbu maqolada til korpusi matnlarini teglash muammolari ko‘rib chiqiladi.