LDA與主題模型

最近看的東西。

於是，這樣就可以對文件進行分類。

一篇文件可以由主題的分布來構成，就是說，包含百分之多少的這個主題，百分之多少的那個主題。不同的文章，包含的主題成分不同，這個分布是不同的的，有些文章這個分布可能是相同、相似的。把所有文章都統計一遍，有多少是屬於這個分布的，多少是屬於那個分布的，統計出來乙個新的分布，就是狄利克雷分配。

這樣的話，我想狄利克雷分配本身也可以繼續統計，得到更高層的的分配，好吧，這裡是我yy的。

就是說上面那個分配不是顯然的，是隱式的，要算出來的意思。在主題模型中，利用lda的思想，就可以這樣描述某一文字中單詞的「發生方式」。也就是說，我要根據概率模型，寫一篇文章出來！

choose parameter θ ～ p(θ); //按照狄利克雷分配，選出乙個主題分布

for each of the n words w_n: //設文件中有n個單詞，那麼對每個單詞做如下操作

choose a topic z_n ～ p(z|θ); //按照主體分部，選擇乙個主題

choose a word w_n ～ p(w|z); //按照這個主題，選擇乙個單詞

於是，我們就通過上面的步驟，把這篇文件」寫」了出來。有木有很厲害！（當然詞序是不考慮的）

把上面的通俗語言表達的方式，換成數學語言，就可以得到下面的盤子圖，和那個公式。

細節上，乙個主題裡面包含的詞的分布（就是每個詞的可能性），也可以通過狄利克雷分配構建乙個高層的分配，即你從狄利克雷分配中以某乙個概率選了乙個分布，這個分布就是p(w|z)，因此，公式中不是p(w|z)，而是p(w|z,β)，這個β就是指這個狄利克雷分布。這樣，公式中α也是類似的，是指上面第一步中的狄利克雷分布。

這裡有兩個狄利克雷分布哦~其構建的分布的基礎是不一樣的。:)

咻~總算用大白話把這麼複雜的數學公式解釋清楚了，哇咔咔~~

LDA與主題模型

LDA主題模型

主題模型LDA

LDA主題模型

LDA與主題模型

LDA主題模型

主題模型LDA

LDA主題模型

相關推薦