機器學習(Coursera吳恩達)(七)

2021-08-22 02:26:54 字數 2368 閱讀 1517

標籤(空格分隔): 機器學習 降維 pca

第二種無監督學習問題,稱為降維。

比如我們有兩個特徵量:x1長度(cm),x2(英吋)。

兩種儀器對同乙個東西測量結果不完全相等,而將兩個都作為特徵有些重複,因而我們希望將這個二維的資料降維至一維。

x原本是二維的,然後降成一維的z。

同理也可以將1000維降維100維。

高維資料無法作為視覺化,只有一維二維三維我們可視。。。

pca中我們要做的是找到乙個方向向量,當我們吧所有的資料都投射到該向量上時,投射平均均方誤差能盡可能地小。方向向量是乙個經過原點的向量,而投射誤差是從特徵向量向該方向向量做垂線的長度。

pca問題描述:

是要將n維資料降維k維,目標是找到向量u(

1),u

(2),

u(3)

,...

,u(k

) u(1

),u(

2),u

(3),

...,

u(k)

pca與線性回歸的區別:乙個是到向量距離最小,乙個是(h(x),y)誤差最小。

均值歸一化:我們需要計算出所有特徵的均值,然後另xj

=xj−ujx

j=xj

−uj。如果特徵是在不同的數量及上,還需要除以標準差δ2δ2

.計算協方差矩陣(convariance matrix)

σ σ

:σ=1m∑

ni=1

(x(i

))(x

(i))

t σ=1

m∑i=

1n(x

(i))

(x(i

))t計算協方差矩陣的特徵向量(eigenvectors)

求特徵向量,可以用奇異值分解

對於乙個n*n的矩陣,我們希望降到k維,只要從u中選取前k個向量,獲得乙個n*k的矩陣,我們用ur

educ

e ure

duce

表示,然後通過計算得到新特徵限量z(

i)=u

tred

uce∗

x(i)

z (i

)=ur

educ

et∗x

(i)。因為x是n*1維的,所以結果為k*1維。

重建壓縮表示

因為是乙個壓縮演算法,所以需要可以恢復到原始資料。

x≈x數量的選擇-k

訓練集的方差1m

∑mi=

1||x

(i)|

|21 m∑

i=1m

||x(

i)||

2可以用特徵值計算平均均方誤差與訓練集方差的比例:

這樣就可以得到應有的k值。

注意主成分分析,壓縮特徵的一種方法,所以對train-set計算得到ur

educ

e ure

duce

之後,就不再參與學習過程。但是在使用test-set或cv-set,或**的新樣本的時候,只需要使用ur

educ

e ure

duce

變換特徵,並且將得到的結果重建出來。

注意的是這並不是在學習中反覆迭代部分的內容。而且一種資料預處理。

**pca不能用於去除過擬合,只是可以提高演算法速度。過擬合還是需要正則化去除。

Coursera吳恩達機器學習教程筆記(三)

上回說到當假設函式的引數增多的時候,代價函式的維度就會變高,描點畫圖這種方法就不適用了,那得咋整呢?所以我們就要採用數學的方法找到代價函式的最小值。這個方法就是大名鼎鼎的梯度下降法。啥叫梯度下降呢?來看這張圖。這張圖的outline就是梯度下降的基本思想,先給定一組引數 0,1,然後不斷調解上面兩個...

吳恩達機器學習筆記

為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...

吳恩達機器學習感悟

吳恩達機器學習,斯坦福2014筆記 由8.2 神經元和大腦想到的 神經重連實驗,比如眼睛連到聽覺皮層,則聽覺皮層學會了看 眼睛連到觸覺皮層,則觸覺皮層學會了看 舌頭上加攝像頭關聯的電極陣列,則負責舌頭感知的皮層學會了看。這寫neuron re wiring實驗,給出的結論是大腦各區使用的是同一種演算...