LDA主題模型 gensim實戰

2021-10-08 02:28:38 字數 352 閱讀 9455

今天我們來談談主題模型(latent dirichlet allocation),由於主題模型是生成模型,而我們常用的決策樹,支援向量機,cnn等常用的機器學習模型的都是判別模型。所以筆者首先簡單介紹一下判別模型和生成模型。下面筆者列出了生成模型和判別模型的核心區別:

簡單的說:

由於生產模型學習的是特徵x和類別y的聯合分布,所以相較於判別模型更為複雜。當建模過程中存在隱變數是,判別模型就無能為力了,而此時生成模型依然能夠發揮作用。高斯混合模型(隱變數是類別)和今天的筆者要介紹的主題模型(隱變數是主題)就是屬於含有隱變數的生成模型

主題模

LDA主題模型

先定義一些字母的含義 lda以文件集合d作為輸入 會有切詞,去停用詞,取詞幹等常見的預處理,略去不表 希望訓練出的兩個結果向量 設聚成k個topic,voc中共包含m個詞 lda的核心公式如下 p w d p w t p t d 直觀的看這個公式,就是以topic作為中間層,可以通過當前的 d和 t...

主題模型LDA

某隨機實驗如果有k個可能結局a1 a2 ak,分別將他們的出現次數記為隨機變數x1 x2 xk,它們的概率分布分別是p1,p2,pk,那麼在n次取樣的總結果中,a1出現n1次 a2出現n2次 ak出現nk次的這種事件的出現概率p有下面公式 p x1 n 1,xk nk n n1 nk pn1 1.p...

LDA主題模型

最近看了一下lda的文章,寫個小結,理解正確與否有待驗證.latent dirichlet allocation lda 是三層的層次概率貝葉斯模型 生成模型 用於處理離散資料,比如文字資料.假設一共有 v 個單詞,則第 j 個單詞表示為 w 0,cdots,0,1,0,cdots,0 text 假...