機器學習總結（二）

lwlr用「核」來對附近的點賦予權重。核的型別可以自由選擇，最常用的核就是高斯核，高斯核對應的權重如下：

這樣就構建了乙個只含對角元素的權重矩陣，並且可以看出點x與x(i)越近，w(i,i)就越大。上述公式的k是使用者指定的，它決定了對附近的點賦予多大的權重。權重關係如下圖：摘自機器學習實戰p142

從圖中可以看出k值越小，有效的區域性點就越少。

補充完我們就要進入今天的正題了

剛開始，我們看到回歸二字，很容易被迷惑，認為它也是乙個回歸問題。錯！它是乙個用來分類的方法。

logistic回歸用到的函式時logistic函式，也就是sigmoid函式，函式形式如下：

其中z是乙個線性組合。

則 z<0,y=0; z=0,y=0.5;z>0,y=1;

所以logistic回歸解決的是線性問題還是非線性問題，取決於z的線性。這裡要提一下，如果x是平方或者三次方，它仍屬於線性問題。因為x的三次方仍可以看做乙個變數x3，只有當關於θ的函式為非線性時，這才是乙個非線性問題。因為我們要求的θ值。

接下來就是損失函式了，這裡我們用的是交叉熵損失函式。為什麼不用歐氏距離也即差平方損失函式了呢？原因有二

1.sigmoid函式差平方為非凸優化函式。

2.有時候得到的概率值是有用的。

交叉熵損失函式是資訊理論裡的概念，大致可以概括為當**的概率接近實際的概率那麼它的交叉熵就會越小（這裡我想到夏農定義的熵的概念用來衡量資訊混亂程度，熵越大說明包含的資訊越多，即資訊越混亂），交叉熵刻畫的是實際輸出（概率）與期望輸出（概率）的距離，我舉個例子就可以方便理解。

交叉熵的公式：

假設n=3,期望輸出為p=(1,0,0)，實際輸出q1=(0.5,0.2,0.3),q2=(0.8,0.1,0.1),那麼

h(p,q1) = -(1*log0.5+0*log0.2+0*log0.3)

h(p,q1) = 0.3

h(p,q1) = -(1*log0.8+0*log0.1+0*log0.1)

h(p,q2)= 0.1

顯然q2和p更為接近，它的交叉熵也更小了。所以我們最小化交叉熵就好。交叉熵還有另外一種表達形式

其結果為：

h(p,q1) = -(1*log0.5+0*log0.2+0*log0.3+0*log0.5+1*log0.8+1*log0.7)=0.55

h(p.q2) = -(1*log0.8+0*log0.1+0*log0.1+0*log0.2+1*log0.9+1*log0.9)=0.19

通過這些例子就大體可以理解，交叉熵的原理。

優點：1.它直接對分類可能性進行建模，無需實現假設資料分布，這樣就避免了假設分布不準確所帶來的問題；

2.它不是僅**類別，而是可得到近似概率**，這對許多需要利用概率輔助決策的任務很有用，比如softmax；

3.對率函式是任意階可導的函式，有很好的數學性質，求導的結果很漂亮，現有的許多數值優化演算法都可直接用於求取最優解。