Published 2025-05-03
Keywords
- Tasniflash, tokenizatsiya, matnlarni tozalash, tokenizator, fine tuning.
Abstract
Hozirgi kunda tabiiy tilni qayta ishlash (NLP) sohasi sun’iy intellektning eng jadal rivojlanayotgan yo‘nalishlaridan biri hisoblanadi. Bu sohada erishilayotgan yutuqlar turli tildagi matnlarni avtomatik tarzda tahlil qilish, tushunish va tasniflash imkonini bermoqda. Ayniqsa, chuqur o‘rganishga asoslangan modellar, xususan, BERT (Bidirectional Encoder Representations from Transformers) modeli ushbu jarayonlarda samaradorlikni sezilarli darajada oshirdi. Google kompaniyasi tomonidan ishlab chiqilgan ushbu model til birliklarini kontekstual tarzda, ya’ni ikki tomonlama yo‘nalishda tahlil qilish orqali yuqori aniqlikka erishadi. Mazkur maqolada BERT modelidan foydalanilgan holda matnlarni muayyan kategoriyalar bo‘yicha tasniflash masalasi ko‘rib chiqiladi. Tadqiqotda modelni o‘qitish, sinovdan o‘tkazish va baholash bosqichlari amalga oshiriladi. Natijalar asosida BERT modelining matn tasnifi sohasidagi samaradorligi tahlil qilinadi va tegishli xulosalar chiqariladi.