Published 2024-05-22
Keywords
- Axborot olish (IR), Stemming, Stemmer, N-gramm, statistik metod, adekvat, tokenizatsiya, algoritm, gipoteza
Abstract
Bugungi kunda tabiiy tilga bog‘liq bo‘lmagan stemmerlarni ishlab chiqish muhim ahamiyat kasb etadi. Tokenizatsiya jarayonining N-gramm usuli ba’zi hollarda stemlarni noto‘g‘ri aniqlashi mumkin. Shu sababli, ushbu N-gramm usuliga biroz o‘zgartirishlar kiritish orqali, yangi stemmer ishlab chiqildi. Ushbu maqola n-grammlardan foydalangan holda innovatsion stemming algoritmini ishlab chiqish, amalga oshirish va baholashni taqdim etadi. Puxta kodlash va sinchkovlik bilan baholash orqali algoritmning samaradorligi baholanadi va uning tabiiy tilni qayta ishlash vazifalariga qo‘shadigan potensial hissasi haqida qimmatli tushunchalarni taqdim etadi.