吳恩達機器學習筆記 15 降維

2022-02-04 05:37:09 字數 2050 閱讀 6385

本章重點講述了降維方法以及其中最主要的pca主成分分析的原理、使用

降維的第乙個作用就是進行資料的壓縮,解決磁碟和計算的問題。比如把二維資料降維到一維:

或者資料從三維降維到2維。

降維的另乙個作用就是進行視覺化,比如我們的資料有很多維度,如果想要在圖形上展示各個資料,分析其關係是很難的。那麼就可以把資料降維到二維:

考慮到資料的可分性,應該尋找一條直線(或者乙個平面),使得資料投影到這個平面的距離最短,資料分布最好(各個點比較分散),比如下面的圖中,紅色的線就要比粉色的好很多,因為粉色的線上所有的點幾乎都要重疊到一起了。

pca總結來說,其實就是尋找k個方向向量,使得所有的點投影到這個k個向量組成的平面。如果是2維,就是尋找一條直線的方向,方向的正負並不影響最後的結果

需要注意的是,pca與線性回歸是不同的:第乙個不同的點是線性回歸裡面為了方便計算,誤差取的是y值的差;而pca裡面計算的投影的距離,因此計算的是點到直線的距離。另乙個不同的點就是線性回歸裡面需要區分x和y,而pca裡面所有的x都是等價的。

計算pca首先要做的就是資料預處理,需要先對所有的資料進行均值化,即求出均值做差。其中sj是max-min

在pca裡面資料降維其實可以換一種思考的角度,如果資料從2維降到1維,其實就是尋找乙個函式使得(x1,x2)變成z1。如果是n維,就是尋找乙個方法,使得結果變成k維。

其實這個過程就可以通過svd來做,針對svd可以在搜尋其他的資料。在協同過濾裡面也是有它的使用場景的。

ps:這兩節看的很蒙——因為字母放反了

參考:pca用於降維,k是降維後的特徵維度,如何選擇k值呢?一般來說k值如果等於n,那麼方差不變,就說保留了100%的方差變化;如果為0,那麼方差相當於全部都忽略了。因此可以通過下面的計算公式,選擇誤差範圍在0.01以內的k值,這樣可以說保留了99%的主成分。

關於使用

pca也屬於一種演算法,它只能在訓練集上訓練執行;在測試集或者交叉驗證集上只能使用訓練的結果直接用來做對映。

關於k的選擇

在使用pca進行資料的壓縮時,一般都要保證方差的保留百分比在99%。而在視覺化的時候由於畫圖的需要,k值可以選擇2或者3。

關於過擬合

pca可以用來降低維度加快訓練速度,但是不能用來避免過擬合。因為pca在考慮資料降維的時候,並沒有考慮y的因素,只是通過分析x,通過方差的百分比來保留資訊,此時有可能丟棄的是與y相關的資訊。如果想解決過擬合的問題,還是推薦使用正則化。

關於濫用

不用濫用pca,很多人(我就這麼幹過!)設計邏輯回歸的時候,都是直接按照下面的流程來做:1 獲得資料樣本;2 執行pca降維;3訓練lr;4測試。推薦的方式還是不使用pca訓練看看效果,再用pca試一下做一下對比。

吳恩達機器學習 筆記九 PCA降維

1.資料降維 資料降維的動力主要來自資料壓縮和資料視覺化。下圖中的資料雖然是在乙個三維空間裡,但是用乙個二維的平面基本上就是可以描述出來的,所以我們可以把資料降到二維。2.pca演算法 第一步是均值歸一化。我們需要計算出所有特徵的均值,然後令 如果特徵是在不同的數量級上,我們還需要將其除以標準差 第...

吳恩達機器學習筆記

為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...

吳恩達機器學習筆記

sigmoid啟用函式 0,1 x 0,y 0.5 tanh啟用函式 1,1 x 0,y 0 relu啟用函式 x 0,y 0 x 0,y x sigmoid啟用函式 除了輸出層是乙個二分類問題基本不會用它。tanh啟用函式 tanh是非常優秀的,幾乎適合所有場合。relu啟用函式 最常用的預設函式...