Vol. 1 No. 1 (2023): COMPUTER LINGUISTICS: PROBLEMS, SOLUTIONS, PROSPECTS
Articles

BPE ALGORITMI ASOSIDA OʻZBEK TILIDAGI MATNLARNI TOKENLASH

Zilola Xusainova
Tashkent State University of Uzbek Language and Literature named after Alisher Navoi
Bio
Qosimova Sarvinoz
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
Bio
Baxtiyorova Nazokat
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
Bio
Turayeva Farzona
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
Bio

Published 2023-04-30

Keywords

  • BPE, bayt juft kodlash, belgilar tokenizatsiyasi, Count Vectorization, OOV soʻzlari, lugʻatdan tashqari soʻzlar, soʻz ostilar tokenizatsiyasi.

Abstract

Tokenizatsiya matnli ma'lumotlar bilan ishlashning asosiy va boshlangʻich boshqichi hisoblanadi. Ushbu maqolada bayt juftligini kodlash (BPE) tokenizatsiya algoritmi tavsiflanadi va oʻzbek tili korpusidagi matnlarga qoʻllaniladi.