實踐 CTR預估中的貝葉斯平滑方法（二）

這篇部落格主要是介紹如何對貝葉斯平滑的引數進行估計，以及具體的**實現。

首先，我們回顧一下前文中介紹的似然函式，也就是我們需要進行最大化的目標函式：

下面我們就基於這個目標函式介紹怎樣估計引數。

矩估計在這裡有點亂入的意思：），因為它其實不是用來最大化似然函式的，而是直接進行引數的近似估計。

矩估計的方法要追溯到19世紀的karl pearson，是基於一種簡單的「替換」思想建立起來的一種估計方法。其基本思想是用樣本矩估計總體矩. 由大數定理，如果未知引數和總體的某個(些)矩有關係，我們可以很自然地來構造未知引數的估計。具體計算步驟如下：

1）根據給出的概率密度函式，計算總體的原點矩（如果只有乙個引數只要計算一階原點矩，如果有兩個引數要計算一階和二階）。由於有引數這裡得到的都是帶有引數的式子。比如，有兩個引數時，需要先計算出：期望

2）根據給出的樣本，按照計算樣本的原點矩。通常它的均值mean用

3）讓總體的原點矩與樣本的原點矩相等，解出引數。所得結果即為引數的矩估計值。這裡有，mean = e(x) = α / (α+β)，var = d(x) = αβ / (α+β)2(α+β+1)。於是乎，我們可以求得α，β：

α = [mean*(1-mean)/var - 1] * mean

β = [mean*(1-mean)/var - 1] * (1-mean)

首先構造出似然函式，然後利用fixed-point iteration來求得似然函式的最大值。

1）首先給出引數的乙個初始值（通常可以使用矩估計得到的結果作為初始值）。

2）在初始值處，構造似然函式的乙個緊的下界函式。這個下界函式可以求得其最大值處的閉式解，將此解作為新的估計用於下一次迭代中。

3）不斷重複上述（2）的步驟，直至收斂。此時便可到達似然函式的stationary point。如果似然函式是convex的，那麼此時就是唯一的最優解。

其實fixed-point iteration的思想與em類似。

首先給出兩個不等式關係：

由此可以得到對數似然函式的乙個下界：

想要得到此下界函式的最大值，可以分別對α，β求偏導，並令之等於零，此時便得到α和β各自的迭代公式：

由此，每次迭代，引數都會達到此次下界函式的最大值處，同時也就使得對應的似然函式值也相應地不斷增大，直至收斂到似然函式的最大值處。

通過將概率引數作為隱含變數，任何估計概率引數的演算法都可以使用em進一步變成估計個數引數的演算法。

（2）m-step：對e-step中的期望值求最大值，便可得到相應的超引數的本輪迭代的更新值。

（3）不斷重複地執行e-step和m-step，直至收斂。

而此時的完全資料的對數似然函式的期望為：

其中，於是乎，我們可以對完全資料的對數似然函式的期望求最大值，從而得到α，β的更新值，有很多方法，直接求偏導，梯度下降，牛頓法等。

但是呢，此時我們並不需要非常精確地求得它的最大值，而是僅僅用牛頓法迭代一次。相比於精確地求得最大值，這種方法在每次迭代時只有一半的計算量，但是迭代次數會超過兩倍。

牛頓法的迭代可見：