Том 1 № 1 (2023): КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: ПРОБЛЕМЫ, РЕШЕНИЯ, ПЕРСПЕКТИВЫ
Статьи

BPE ALGORITMI ASOSIDA OʻZBEK TILIDAGI MATNLARNI TOKENLASH

Zilola Xusainova
Alisher Navoiy nomidagi Toshkent davlat o`zbek tili va adabiyoti universiteti
Биография
Qosimova Sarvinoz
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
Биография
Baxtiyorova Nazokat
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
Биография
Turayeva Farzona
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
Биография

Опубликован 2023-04-30

Ключевые слова

  • BPE, bayt juft kodlash, belgilar tokenizatsiyasi, Count Vectorization, OOV soʻzlari, lugʻatdan tashqari soʻzlar, soʻz ostilar tokenizatsiyasi.

Аннотация

Tokenizatsiya matnli ma'lumotlar bilan ishlashning asosiy va boshlangʻich boshqichi hisoblanadi. Ushbu maqolada bayt juftligini kodlash (BPE) tokenizatsiya algoritmi tavsiflanadi va oʻzbek tili korpusidagi matnlarga qoʻllaniladi.