文字建模系列之二 pLSA

2021-09-02 15:15:34 字數 1865 閱讀 6250

「廟小妖風大,水淺王八多」。還是這句話,這是業餘研究生的文字建模系列之二:關於plsa。前述就到此。

plsa:probabilistic latent senmantic indexing.是hoffman在2023年提出的基於概率的隱語義分析。之所以說是probabilistic,是因為這個模型中還加入了乙個隱變數:主題z ,也正因為此,它被稱之為主題模型。

在plsa中,一片文件可能有多個主題,而乙個主題對應著多個單詞的分布,以lda數學八卦一文中的描述為例,可以比較生動的闡述在plsa模型中,一篇文件是如何生成的。

因此,對於文件d中的乙個單詞w,其概率可以描述為:

對於整個語料,那麼其似然函式是:

當然,其對數的似然函式如下:

其中n(d,w)表示在文件d中,單詞w出現的次數

帶入第一式可以得到對數的似然函式是:

然後現在的問題是:如何求取p(w|z)和p(z|d).

這種隱變數的求法和之前的高斯混合分布的求法其實是一樣的,很顯然的需要em演算法來進行求導。回顧之前的em演算法,我們首先需要求取q函式的分布的期望,然後另該期望最大化。

根據jessen不等式:

變成求右邊下界的問題,需要等號成立的話,需要:

因此我們得出:

於是e步就是:

有兩個約束條件:

下面進行m步,也就是求期望最大:

使用拉格朗日乘法求:

使偏導為零可以得出結果:

這就求出了我們需要的引數。

然後就是重複迭代的過程,直至收斂。

好了,模型已經建立完畢,現在的問題是給出一篇新的文件,如何求取其文件的主題分布呢。當然最直接的想法就是,將該文件丟到語料庫中重新爬一遍,然後得出結果,當然這種耗時大一般不建議採用,**在給出了幾種方法,我覺的主要是fold-in方法比較重要:

將訓練出來的p(w|z)固定不變,在em演算法中,只有乙個文件q,通過迭代跑p(z|d),之後計算相似度​

ok,這就是plsa.

求偏導可以參考

參考文獻:

[1]probabilitic latent semantic indexing.thomas hofmann .

[2]lda數學八卦.靳志輝

[3]基於plsa主題模型的文字聚類

文字建模系列之二 pLSA

廟小妖風大,水淺王八多 還是這句話,這是業餘研究生的文字建模系列之二 關於plsa。前述就到此。plsa probabilistic latent senmantic indexing.是hoffman在1999年提出的基於概率的隱語義分析。之所以說是probabilistic,是因為這個模型中還加...

hibernate系列之二

首先先介紹一下持久化 持久化 將程式資料在持久狀態和瞬時狀態間轉換的機制 即將記憶體的資料永久存在關係型資料庫中 持久化類的編寫規則 持久化類需要提供無參構造方法 持久化類的屬性需要私有,對私有的屬性提供get set方法 持久化類的屬性盡量使用包裝類的型別 持久化類要有乙個唯一標識oid與表的主鍵...

文字建模系列之一 LSA

俗話說 廟小妖風大,水淺王八多 作為一名自然語言處理的水貨研究生,通常只是對 有著一知半解的了解,然而因為畢竟人老了年紀大容易忘事,有時候還是想把這一知半解的想法用文字寫出來,以便之後回顧,看官勿噴,水貨要開始動筆了。文字建模是自然語言處理領域中很基礎的內容,而且也已經被研究了千萬遍,這個系列我主要...