吳恩達機器學習筆記

sigmoid啟用函式：（0，1），x=0,y=0.5;

tanh啟用函式：（-1，+1），x=0,y=0;

relu啟用函式：x<=0,y=0; x>0,y=x;

sigmoid啟用函式：除了輸出層是乙個二分類問題基本不會用它。

tanh啟用函式：tanh是非常優秀的，幾乎適合所有場合。

relu啟用函式：最常用的預設函式，，如果不確定用哪個啟用函式，就使用relu或者leaky relu。

通過不同的axis，numpy會沿著不同的方向進行操作：如果不設定，那麼對所有的元素操作；如果axis=0，則沿著縱軸進行操作；axis=1，則沿著橫軸進行操作。但這只是簡單的二位陣列，如果是多維的呢？可以總結為一句話：設axis=i，則numpy沿著第i個下標變化的方向進行操作。

向量的維度：n行即是n維。

向量通常用小寫字母表示，矩陣則用大寫字母。

矩陣：matrix

向量：vector

補充：

向量：一維陣列

矩陣：二維陣列

張量：三維及以上維度的陣列

1: 對第i個權重求偏導時，使用第i個特徵。

2: 對特徵進行縮放，如特徵值減去該特徵集合的平均值，這樣的梯度下降效果更好，收斂更快。

3: 刪除多餘特徵（比如線性相關的特徵只要保留乙個，可以解決矩陣不可逆的問題），或者組合多個特徵構造新特徵，或者多次使用同乙個特徵構造n次方（或n次方根）。

4: 正規化方程不需要特徵縮放，但是計算複雜度是n的3次方，不適合特徵數目大的場景，10000的3次方就是10的12次方了，但是特徵數目通常比較少吧？只適用於線性模型！

bfgs、adam等優化器比起梯度下降法的優缺點（缺點忽略不計，所以常用adam即可）。

優點：自動選擇學習率。

缺點：實現複雜，所以沒必要親自實現，只要使用就好了。

簡單的乘除、開方、開根我們都用的計算器，所以稍微複雜的求逆矩陣、轉置矩陣以及複雜的adam等學習演算法，也依然只要學會呼叫現成的第三方庫即可，沒必要親自實現演算法，當然，他們的優缺點和使用場景還是需要了解的，正如各種基礎的資料結構和演算法可以不會編寫實現，但一定要知道他們是做什麼的，否則就少了很多解決問題的可行性方案了。

針對乙個新的機器學習任務，先實現乙個簡單的演算法，效果不一定好，但是能發現優缺點，再針對性的進一步優化。即：先找到方向，再前進。

同樣是logistics回歸的方式，訓練出多個一對其他的二分類器，得出最大概率的那個類作為**結果，還可以通過softmax方式將概率歸一化，得出屬於各個分類的概率。

不要花太多時間收集樣本，先保證在少量樣本集上表現的效能良好。

高偏差是欠擬合，高方差則過擬合。

樣本多和特徵少，則能避免過擬合，反之則避免欠擬合。

增大正則化引數lambda，能避免過擬合。

減小，能避免欠擬合。

神經網路引數越多，越容易過擬合，就需要dropout，減少一些連線權。

防止過擬合：正則化常數lambda要稍大、svm的c要稍小、高斯核的alpha要稍大。

當正反例的樣本集相差懸殊（偏斜類）時，錯誤率和精度的度量標準就不好用了，此時，應該使用查準率和查全率（召回率）來度量。

n>>m：svm不帶核函式or對數機率回歸。

簇類k值的選擇：一般是視覺化後，人工觀察得出，也可以對不同k值訓練出代價j，視覺化（k-j）利用肘部法則選擇k，但通常並沒有明顯的肘部出現。另一種情況，比如身高體重對應的衣服尺寸的類別，可以通過常識或者專業建議進行選擇，如：xs，s，m，l，xl，可選擇k=5。

目的1：壓縮資料，提高訓練速度。

目的2：視覺化，3維世界，只能觀察1、2、3維的空間。

最常用方法pca（主成分分析）：

pca通過簡單的向量減法和矩陣-向量乘法將新樣本投影到低維空間中。

pca將最小的幾個特徵值的特徵向量捨棄了，這是降維導致的結果，但是捨棄這些資訊能使樣本的取樣密度增大，這也正是降維的重要動機，另一方面最小的特徵值所對應的特徵向量往往與雜訊有關，捨棄它們也在一定程度上起到去噪的效果。

優勢：實現快速簡單，變種有kpca和稀疏pca等。

缺點：新特徵列不易解釋，pca降維跟標籤y無關，因此可能丟失有價值的資訊，因此雖然可以用來防止過擬合，但不推薦如此。

與線性回歸不同，pca的是最小化距離，lr是**x對應的y值。

均值標準化：x減去均值u，令均值等於0。投影即可經過原點。

特徵縮放：(x-u)/s，s為標準差，或是max-min。

求解步驟：

步驟一：求協方差s igma，矩陣*轉置矩陣的和的平均值。

步驟二：奇異值分解svd，【u，s，v】= svd(sigma)

步驟三：ureduce = u(:,1:k)

步驟四：z = ureduce』 * x

高斯分布（正態分佈）：利用平均值和方差，計算樣本符合正態分佈的概率，越低則越可能是異常（越少發生）。

優化目標：閾值（正反例的閾值）

讓特徵的分布情況看起來更像高斯分布，可以通過類似核方法的方式，如log(x1)、log(x2+c)、x3^3等。

通過落在正常區域的異常樣本啟發，找出新的特徵區分這個異常，或者組合出新的特徵。

改良版多元高斯分布（多元正態分佈）：解決高低概率連乘後導致的誤判，使用協方差，影象可以不僅僅是基於座標軸對稱。

基於內容：已知電影型別。

基於使用者：已知使用者喜好型別。

協同過濾演算法：同時優化內容和使用者引數，需要先均值規範化。

單向rnn用序列前件的輸出當成後件的輸入（雙向rnn則可以通過上下文共同**中間部分），進而輔助**後件

引數數量大大減少

通過one-hot向量化，生成字典（標點符號也可以加入字典）

eos：句子結束標記

unk：代替字典中沒有的word

a0=0

指數**：使用梯度修剪的方式解決，閾值縮放，最大值修剪

gru（門控迴圈單元）：緩解梯度消失，保持長期依賴

吳恩達機器學習筆記

吳恩達機器學習筆記

吳恩達機器學習筆記（1）

吳恩達機器學習筆記導論

吳恩達機器學習筆記

吳恩達機器學習筆記

吳恩達機器學習筆記（1）

吳恩達機器學習筆記 導論

相關推薦

吳恩達機器學習筆記導論