李巨集毅《機器學習》課程筆記（作業二分類）

為什麼不能直接用回歸的方式來做分類的問題，因為在回歸裡面，可能同一類裡面的樣本點他們的feature差異很大，但是lable都是1，這就要求求出來的model兼顧所有的樣本點，那麼可能導致model效能較差。下圖表現的非常清晰。

在做分類的時候，用到貝葉斯公式，可是公式中的p(x|c1)應該怎麼算呢？因為面對乙個新的x的時候訓練資料裡沒有。這個時候我們把訓練資料假設是乙個高斯分布得到的，所以找出最優（最大可能性）的高斯分布，再去計算新的x產生的概率。有趣的是，這裡用到的並不是真正意義上的「概率」，而是「概率密度」，我們可以認為兩者是等價的，沒有問題。

可以發現基於高斯假設和相同協方差假設的貝葉斯模型其實跟邏輯回歸是同乙個模型。

如果直接求邏輯回歸的引數，可以發現跟線性回歸本質上是一樣的，梯度下降的公式都是完全一樣的。但是為什麼loss函式是用交叉熵而不是均方差公式呢，理論上也可以，但是那樣做的話在離最優解比較遠的地方也可能會梯度非常小，模型無法判斷距離最優解的遠近，所以一般很難取得較好的表現。

邏輯回歸被稱為discriminative model而貝葉斯被稱為generative model，通常前者表現更好，因為後者的一些假設常常是不對的。如果資料量比較少，可能後者更好。

邏輯回歸做不到異或，非要做的話可以做乙個feature transformation，但是這並不容易做。把多個邏輯回歸接在一起，就可以處理了，這樣也就形成了深度神經網路。

李巨集毅《機器學習》課程筆記（作業二分類）

李巨集毅《機器學習》課程筆記（作業四 RNN）

李巨集毅《機器學習》課程筆記（作業七模型壓縮）

李巨集毅機器學習課程筆記 1

李巨集毅《機器學習》課程筆記（作業二 分類）

李巨集毅《機器學習》課程筆記（作業四 RNN）

李巨集毅《機器學習》課程筆記（作業七 模型壓縮）

李巨集毅機器學習課程筆記 1

相關推薦

李巨集毅《機器學習》課程筆記（作業二分類）

李巨集毅《機器學習》課程筆記（作業七模型壓縮）