Vol. 1 No. 1 (2024): COMPUTER LINGUISTICS: PROBLEMS, SOLUTIONS, PROSPECTS
Articles

TIL KORPUSI MATNLARI CHASTOTASI, KONKORDANS VA KWIC

Published 2024-05-22

Abstract

NLPga asoslangan ilovalar(axborot tizimlari)ni ishlab chiqish uchun NLP tizimni mavjud ma’lumotlarni o‘rganishini ta’minlash kerak. Ushbu amalni til korpusi vositasida amalga oshirish mumkin. Korpus matnlarini annotatsiyalash yoki teglash orqali so‘z, ibora, so‘z birikmasi shu kabi leksik birliklarni izohlash kabi matnga teg (izoh) qo‘shish va ularni belgilashdan iborat. Til korpusi foydalanuvchilar uchun to‘liq foydali bo‘lishi uchun uni teglash kerak. Bugungi kunda dunyodagi mashur korpuslar turli mezonlar bo‘yicha teglangan. Lingvistik teglash – bu qaror qabul qilish maqsadida kompyuterda o‘qiladigan ma’lumotlarni uning ma’nosiga bog‘lash jarayoni. Texnik jihatdan, u tildagi murakkab naqshlarni aniqlash uchun hissiyotlarni tahlil qilish yoki NLP ilovalari tomonidan ishlatilishi mumkin bo‘lgan lingvistik metama’lumotlarga ega matnga izoh berishni o‘z ichiga oladi.