Published 2024-05-22
Keywords
- til korpusi, lingvistik teglash, morfologik tahlil, tokenlash, lemmalash, POS teglash, sintaktik tahlil, semantik tahlil, NER, teglangan korpuslar.
Abstract
Til korpusi elektron shaklda taqdim etiladigan katta hajmli va strukturlangan matnlar to‘plami sifatida qaraladi. Til korpusi yozma yoki og‘zaki materialni ifodalab, NLP tizimini mavjud resurslarni o‘rganishi uchun lingvistik tahlilni amalga oshirish lozim. Bugungi kunda zamonaviy NLP modellarini yaratish lingvistik bilimlarning akustika va prosodika, fonetika, orfografiya, morfologiya, leksikologiya, sintaksis, semantika, pragmatika va diskurs kabi spetsifikatsiyasini talab qiladi. NLP bilan bog‘liq lingvistik bilimlar leksik, sintaktik, semantik va pragmatik xususiyatlarni o‘z ichiga oladi. Ushbu maqolada lingvistik teglashning asosiy amallari haqida fikrlar keltiriladi. Maqolada orfografiya bilan bog‘liq teglash – tokenizatsiya va gap chegaralarini aniqlash, token yoki tokenlar to‘plamining so‘z turkumini belgilash (PoS teglash), sintaktik, semantik teglash, korpus matnlaridagi koreferensiyani aniqlash masalalari va ularni amalga oshirish usullari haqida umumiy ma’lumot berilgan.