LDA與主題模型

2021-06-18 08:33:27 字數 999 閱讀 1180

1

最近看的東西。

於是,這樣就可以對文件進行分類。

一篇文件可以由主題的分布來構成,就是說,包含百分之多少的這個主題,百分之多少的那個主題。不同的文章,包含的主題成分不同,這個分布是不同的的,有些文章這個分布可能是相同、相似的。把所有文章都統計一遍,有多少是屬於這個分布的,多少是屬於那個分布的,統計出來乙個新的分布,就是狄利克雷分配。

這樣的話,我想狄利克雷分配本身也可以繼續統計,得到更高層的的分配,好吧,這裡是我yy的。

就是說上面那個分配不是顯然的,是隱式的,要算出來的意思。在主題模型中,利用lda的思想,就可以這樣描述某一文字中單詞的「發生方式」。也就是說,我要根據概率模型,寫一篇文章出來!

choose parameter θ ~ p(θ); //按照狄利克雷分配,選出乙個主題分布

for each of the n words w_n: //設文件中有n個單詞,那麼對每個單詞做如下操作

choose a topic z_n ~ p(z|θ); //按照主體分部,選擇乙個主題

choose a word w_n ~ p(w|z); //按照這個主題,選擇乙個單詞

於是,我們就通過上面的步驟,把這篇文件」寫」了出來。有木有很厲害!(當然詞序是不考慮的)

把上面的通俗語言表達的方式,換成數學語言,就可以得到下面的盤子圖,和那個公式。

細節上,乙個主題裡面包含的詞的分布(就是每個詞的可能性),也可以通過狄利克雷分配構建乙個高層的分配,即你從狄利克雷分配中以某乙個概率選了乙個分布,這個分布就是p(w|z),因此,公式中不是p(w|z),而是p(w|z,β),這個β就是指這個狄利克雷分布。這樣,公式中α也是類似的,是指上面第一步中的狄利克雷分布。

這裡有兩個狄利克雷分布哦~其構建的分布的基礎是不一樣的。:)

咻~總算用大白話把這麼複雜的數學公式解釋清楚了,哇咔咔~~

LDA主題模型

先定義一些字母的含義 lda以文件集合d作為輸入 會有切詞,去停用詞,取詞幹等常見的預處理,略去不表 希望訓練出的兩個結果向量 設聚成k個topic,voc中共包含m個詞 lda的核心公式如下 p w d p w t p t d 直觀的看這個公式,就是以topic作為中間層,可以通過當前的 d和 t...

主題模型LDA

某隨機實驗如果有k個可能結局a1 a2 ak,分別將他們的出現次數記為隨機變數x1 x2 xk,它們的概率分布分別是p1,p2,pk,那麼在n次取樣的總結果中,a1出現n1次 a2出現n2次 ak出現nk次的這種事件的出現概率p有下面公式 p x1 n 1,xk nk n n1 nk pn1 1.p...

LDA主題模型

最近看了一下lda的文章,寫個小結,理解正確與否有待驗證.latent dirichlet allocation lda 是三層的層次概率貝葉斯模型 生成模型 用於處理離散資料,比如文字資料.假設一共有 v 個單詞,則第 j 個單詞表示為 w 0,cdots,0,1,0,cdots,0 text 假...