Articles
Published 2023-04-30
Keywords
- BPE, bayt juft kodlash, belgilar tokenizatsiyasi, Count Vectorization, OOV soʻzlari, lugʻatdan tashqari soʻzlar, soʻz ostilar tokenizatsiyasi.
Abstract
Tokenizatsiya matnli ma'lumotlar bilan ishlashning asosiy va boshlangʻich boshqichi hisoblanadi. Ushbu maqolada bayt juftligini kodlash (BPE) tokenizatsiya algoritmi tavsiflanadi va oʻzbek tili korpusidagi matnlarga qoʻllaniladi.