李巨集毅《機器學習》課程筆記(作業二 分類)

2021-10-06 00:28:05 字數 746 閱讀 4291

為什麼不能直接用回歸的方式來做分類的問題,因為在回歸裡面,可能同一類裡面的樣本點他們的feature差異很大,但是lable都是1,這就要求求出來的model兼顧所有的樣本點,那麼可能導致model效能較差。下圖表現的非常清晰。

在做分類的時候,用到貝葉斯公式,可是公式中的p(x|c1)應該怎麼算呢?因為面對乙個新的x的時候訓練資料裡沒有。這個時候我們把訓練資料假設是乙個高斯分布得到的,所以找出最優(最大可能性)的高斯分布,再去計算新的x產生的概率。有趣的是,這裡用到的並不是真正意義上的「概率」,而是「概率密度」,我們可以認為兩者是等價的,沒有問題。

可以發現基於高斯假設和相同協方差假設的貝葉斯模型其實跟邏輯回歸是同乙個模型。

如果直接求邏輯回歸的引數,可以發現跟線性回歸本質上是一樣的,梯度下降的公式都是完全一樣的。但是為什麼loss函式是用交叉熵而不是均方差公式呢,理論上也可以,但是那樣做的話在離最優解比較遠的地方也可能會梯度非常小,模型無法判斷距離最優解的遠近,所以一般很難取得較好的表現。

邏輯回歸被稱為discriminative model而貝葉斯被稱為generative model,通常前者表現更好,因為後者的一些假設常常是不對的。如果資料量比較少,可能後者更好。

邏輯回歸做不到異或,非要做的話可以做乙個feature transformation,但是這並不容易做。把多個邏輯回歸接在一起,就可以處理了,這樣也就形成了深度神經網路。

李巨集毅《機器學習》課程筆記(作業四 RNN)

rnn和半監督學習需要後面補上。word embedding是想做乙個什麼事情呢,是希望把詞彙用乙個比較短的向量表達出來,因為通常的詞彙的表達是通過乙個非常長的 詞典那麼長的 1 of n向量來表達,這樣的表達沒有資訊,我們希望能用乙個短向量 例如10或100維 來表達詞彙,就需要每個維度表達一些資...

李巨集毅《機器學習》課程筆記(作業七 模型壓縮)

有多種模型壓縮的方法。第乙個是網路剪枝,因為神經網路往往是過度引數化,所以刪掉一部分網路引數。先訓練好乙個大的神經網路,然後評估每個引數是否重要,評估方法其實就是看是否接近0。然後把不重要的東西移除。用新的網路重新訓練一下,update一下引數,可以把損傷移除。注意一次不刪掉很多,怕恢復不回來,所以...

李巨集毅機器學習課程筆記 1

機器學習 自動找函式 f input output 1.regression 輸出是乙個數值 2.classification 分類 二分類 多分類 rnn 迴圈神經網路 cnn 卷積神經網路translation 繪二次元圖4.supervised learning 監督學習labeled dat...