Abstract
Tematik modellashtirish – bu katta matn toʻplamlarida yashirin tematik tuzilmalarni aniqlashga yordam beradigan tabiiy tilni qayta ishlash usulidir. Yashirin Dirixle taqsimoti (LDA) va manfiy boʻlmagan matritsa faktorizatsiyasi (NMF) kabi an'anaviy yondashuvlar koʻp yillar davomida tematik modellashtirish sohasida asosiy oʻrinlarni egallab kelishgan, ammo ular soʻzlar orasidagi semantik munosabatlarni e'tiborsiz qoldiradigan Bag-of-Words ga tayanganligi sababli turxli xil cheklovlarga duch kelishmoqda. BERTopic oʻz navbatida transformatorlarga asoslangan holda til modellarining semantikasini birlashtirish orqali klasterlash usullari va maxsus ishlab chiqilgan sinfga asoslangan TF-IDF protsedurasi bilan birlashtirilgan holda, tematik modellashtirishga yangi yondashuvni taqdim etadi. Ushbu kombinatsiya moslashuvchan boʻlib adaptatsiyalashgan tizimni saqlagan holda, yanada interpretatsiya qilinadigan mavzularni yaratishga imkon beradi.