吳恩達機器學習筆記

2021-09-25 22:04:41 字數 3575 閱讀 8091

sigmoid啟用函式:(0,1),x=0,y=0.5;

tanh啟用函式:(-1,+1) ,x=0,y=0;

relu啟用函式:x<=0,y=0; x>0,y=x;

sigmoid啟用函式:除了輸出層是乙個二分類問題基本不會用它。

tanh啟用函式:tanh是非常優秀的,幾乎適合所有場合。

relu啟用函式:最常用的預設函式,,如果不確定用哪個啟用函式,就使用relu或者leaky relu。

通過不同的axis,numpy會沿著不同的方向進行操作:如果不設定,那麼對所有的元素操作;如果axis=0,則沿著縱軸進行操作;axis=1,則沿著橫軸進行操作。但這只是簡單的二位陣列,如果是多維的呢?可以總結為一句話:設axis=i,則numpy沿著第i個下標變化的方向進行操作。

向量的維度:n行即是n維。

向量通常用小寫字母表示,矩陣則用大寫字母。

矩陣:matrix

向量:vector

補充:

向量:一維陣列

矩陣:二維陣列

張量:三維及以上維度的陣列

1: 對第i個權重求偏導時,使用第i個特徵。

2: 對特徵進行縮放,如特徵值減去該特徵集合的平均值,這樣的梯度下降效果更好,收斂更快。

3: 刪除多餘特徵(比如線性相關的特徵只要保留乙個 ,可以解決矩陣不可逆的問題),或者組合多個特徵構造新特徵,或者多次使用同乙個特徵構造n次方(或n次方根)。

4: 正規化方程不需要特徵縮放,但是計算複雜度是n的3次方,不適合特徵數目大的場景,10000的3次方就是10的12次方了 ,但是特徵數目通常比較少吧?只適用於線性模型!

bfgs、adam等優化器比起梯度下降法的優缺點(缺點忽略不計,所以常用adam即可)。

優點:自動選擇學習率。

缺點:實現複雜,所以沒必要親自實現,只要使用就好了。

簡單的乘除、開方、開根我們都用的計算器,所以稍微複雜的求逆矩陣、轉置矩陣以及複雜的adam等學習演算法,也依然只要學會呼叫現成的第三方庫即可,沒必要親自實現演算法,當然,他們的優缺點和使用場景還是需要了解的,正如各種基礎的資料結構和演算法可以不會編寫實現,但一定要知道他們是做什麼的,否則就少了很多解決問題的可行性方案了。

針對乙個新的機器學習任務,先實現乙個簡單的演算法,效果不一定好,但是能發現優缺點,再針對性的進一步優化。即:先找到方向,再前進。

同樣是logistics回歸的方式,訓練出多個一對其他的二分類器,得出最大概率的那個類作為**結果,還可以通過softmax方式將概率歸一化,得出屬於各個分類的概率。

不要花太多時間收集樣本,先保證在少量樣本集上表現的效能良好。

高偏差是欠擬合,高方差則過擬合。

樣本多和特徵少,則能避免過擬合,反之則避免欠擬合。

增大正則化引數lambda,能避免過擬合。

減小,能避免欠擬合。

神經網路引數越多,越容易過擬合,就需要dropout,減少一些連線權。

防止過擬合:正則化常數lambda要稍大、svm的c要稍小、高斯核的alpha要稍大。

當正反例的樣本集相差懸殊(偏斜類)時,錯誤率和精度的度量標準就不好用了,此時,應該使用查準率和查全率(召回率)來度量。

n>>m:svm不帶核函式or對數機率回歸。

n

簇類k值的選擇:一般是視覺化後,人工觀察得出,也可以對不同k值訓練出代價j,視覺化(k-j)利用肘部法則選擇k,但通常並沒有明顯的肘部出現。另一種情況,比如身高體重對應的衣服尺寸的類別,可以通過常識或者專業建議進行選擇,如:xs,s,m,l,xl,可選擇k=5。

目的1:壓縮資料,提高訓練速度。

目的2:視覺化,3維世界,只能觀察1、2、3維的空間。

最常用方法pca(主成分分析):

pca通過簡單的向量減法和矩陣-向量乘法將新樣本投影到低維空間中。

pca將最小的幾個特徵值的特徵向量捨棄了,這是降維導致的結果,但是捨棄這些資訊能使樣本的取樣密度增大,這也正是降維的重要動機,另一方面最小的特徵值所對應的特徵向量往往與雜訊有關,捨棄它們也在一定程度上起到去噪的效果。

優勢:實現快速簡單,變種有kpca和稀疏pca等。

缺點:新特徵列不易解釋,pca降維跟標籤y無關,因此可能丟失有價值的資訊,因此雖然可以用來防止過擬合,但不推薦如此。

與線性回歸不同,pca的是最小化距離,lr是**x對應的y值。

均值標準化:x減去均值u,令均值等於0。 投影即可經過原點。

特徵縮放 :(x-u)/s,s為標準差,或是max-min。

求解步驟:

步驟一:求協方差s igma,矩陣*轉置矩陣的和的平均值。

步驟二:奇異值分解svd,【u,s,v】= svd(sigma)

步驟三:ureduce = u(:,1:k)

步驟四:z = ureduce』 * x

高斯分布(正態分佈):利用平均值和方差,計算樣本符合正態分佈的概率,越低則越可能是異常(越少發生)。

優化目標:閾值(正反例的閾值)

讓特徵的分布情況看起來更像高斯分布,可以通過類似核方法的方式,如log(x1)、log(x2+c)、x3^3等。

通過落在正常區域的異常樣本啟發,找出新的特徵區分這個異常,或者組合出新的特徵。

改良版多元高斯分布(多元正態分佈):解決高低概率連乘後導致的誤判,使用協方差,影象可以不僅僅是基於座標軸對稱。

基於內容:已知電影型別。

基於使用者:已知使用者喜好型別。

協同過濾演算法:同時優化內容和使用者引數,需要先均值規範化。

單向rnn用序列前件的輸出當成後件的輸入(雙向rnn則可以通過上下文共同**中間部分),進而輔助**後件

引數數量大大減少

通過one-hot向量化,生成字典(標點符號也可以加入字典)

eos:句子結束標記

unk:代替字典中沒有的word

a0=0

指數**:使用梯度修剪的方式解決,閾值縮放,最大值修剪

gru(門控迴圈單元):緩解梯度消失,保持長期依賴

吳恩達機器學習筆記

為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...

吳恩達機器學習筆記(1)

1 用來進行資料探勘 2 讓機器進行自我學習 3 能對使用者進行個性化定製的應用程式 4 了解人類大腦的執行機制 arthor samuel的定義 是在沒有對機器進行明確的程式設計的情況下讓機器具有自主學習的能力。學習演算法主要分為兩大類,監督學習演算法和非監督學習演算法。監督學習演算法就是明確告訴...

吳恩達機器學習筆記 導論

機器學習分類 supervised learning 監督學習 回歸問題 設法 連續值的屬性。如 房屋售價 分類問題 設法 乙個離散的輸出值。breast cancer。unsupervised learning 無監督學習 給定乙個資料集,我們不知道資料點究竟是什麼意思,找到資料的結構 對於給定的...