殊途同歸的機器學習演算法

殊途同歸的演算法，本文將從數學，概率和資訊理論的角度來說明常見的幾種機器學習演算法都是等價的。一定程度上最大熵模型（maximum entopy ：maxent），邏輯回歸（logit regression），softmax 回歸，

對數線性模型，廣義線性模型（指數模型）， energy-based model, boltzmann distribution, conditional random field 等都是等價的(參見quora上jason eisner的回答）。對於乙個監督學習的分類問題，我們常常從概率模型切入。即設x是輸入空間的乙個隨機變數，y是輸出空間的隨機變數，通常$y=\$, 其中k大於等於2。監督學習的目的是得到條件概率分布：

\[p(y|x)

\]對給定的輸入，**相應的輸出，並選取概率最大的那個類作為新輸入的類別。

在聊各種模型之前，先來看看熵和似然函式

從資訊理論的角度來看世界，一切都是由0和1組成的，我們稱乙個資訊所占用的二進位制位的單位為bit。如果乙個離散的隨機變數x有n種可能，那麼一般來講最多需要log n 個bit位來表示。

熵度量的是某個事件的不確定性程度，大部分事件在最初的時候都是不確定的，比如明天的天氣、某場比賽的結果，彩票的中獎號碼等等。這都是乙個乙個的黑盒子，而熵度量的就是需要用多少bit來表示這種不確定性大小。在二進位制世界，n個bit位可以表示$2^n$種可能，bit位數越大，說明不確定性程度越大，我們舉乙個找砝碼的例子：

假設有8個砝碼，其中有乙個砝碼的重量跟其他的不一樣。問，如果給你一台天平，那麼需要稱幾次才能確定這個砝碼。其實如果不問具體的測量過程，那這種問題超級好解，即我們只需要知道需要幾個bit位來度量這個黑盒子，而這裡有8個砝碼，即有8種可能。說明我們測量的結果必須表示出所有的可能。又我們知道每次稱重只有兩種可能，那麼顯然三次稱重就有了8種可能，即只需要三次。

定義：設x是乙個取有限個值的離散隨機變數，且其概率分布為：

\[p(x=x_i)=p_i, \quad, i=1,2,\ldots,n

\]則隨機變數x的熵定義為：

\[h(x)=-\sum_^ p_i \log p_i

\]從測度論角度，熵可以看成是$-\log x $的期望。再來看似然函式，似然函式刻畫的是樣本與真實事件之間的吻合度。同樣考慮離散隨機變數x，假設我們有m組樣本（以拋硬幣為例），正正反反正正反......，又設拋硬幣出現正的概率為p，則該樣本出現的可能性為：

\[l(p)=pp(1-p)(1-p)pp(1-p)\cdots=p^} (1-p)^}

\]未完待續

殊途同歸的機器學習演算法

C VSVB殊途同歸

Builder與Factory，殊途同歸！

用友金蝶道不同殊途同歸

殊途同歸的機器學習演算法

C VSVB殊途同歸

Builder與Factory，殊途同歸！

用友金蝶 道不同殊途同歸

相關推薦

用友金蝶道不同殊途同歸