LDA學習筆記1 引數估計

這幾天學習在lda，終於把其原理搞清楚了，記錄一下要點

1. 引數估計和**

對於乙個已知模型，貝葉斯推理的兩個大問題，

1.引數估計，主要方法有極大似然估計（mle,maximum likelihood estimation）和極大後驗概率（map,maximum a posteriori estimation）,也可以直接求解p(/theta | x),其中x為已知資料集

2.**方法, 即對於乙個未知的特徵向量x，求p(x|x)(假設樣本之間滿足iid條件，)

1.1極大似然估計

極大似然估計，定義了似然函式,直接對似然函式求解其最大值（求導，梯度法等）

當**時，用估計值（單點）替代真實值（積分）

1.2 極大後驗概率

這個方法和mle很類似，不同之處在於引入了乙個先驗概率p（/theta）

同樣用求導或者梯度等方式求解出乙個值，

然後用單點的估計值近似替代真實的積分值獲得p(x|x)

1.3 貝葉斯推理（bayes inference）

和上面的方法不同，這裡不對引數估計出單個值，而是直接計算其分布，按分布積分獲得p（x|x）

其中

可以看出，從前往後，建模的精細程度增加了，能夠更好的建模實際的資料。對於mle和bi，都需要用到先驗概率。先驗概率可以包含已知的人類知識，平滑掉因為資料較少造成的抖動和誤差等。bi對整個分布進行積分，比前兩個方法的單點估計更加準確

但是另一方面，複雜的模型計算難度增加，可能沒有解析解，數學性質變差，在資料量不夠的情況下可能過擬合。。。。

我們建模時候希望找到一系列函式，既能有效的擬合出資料表達出主要特徵，同時，又具有良好的數學性質，減少推導和求解的難度。

lda便是其中一種比較好的模型