機器學習筆記十一之降維

我們可以先令? = 1，然後進行主要成分分析，獲得???????和?，然後計算比例是否小於

1%。如果不是的話再令? = 2，如此類推，直到找到可以使得比例小於 1%的最小? 值（原因

是各個特徵之間通常情況存在某種相關性）。

還有更好的方式來選擇k，通過奇異值分解得到【u,s,v】三個引數，

5 重建的壓縮表示

在那裡你可能需要把 1000 維的資料壓縮100 維特徵，或具有三維資料壓縮到一二維表示。所以，如果這是乙個壓縮演算法，應該能回到這個壓縮表示，回到你原有的高維資料的一種近似。

所以，給定的?(?)，這可能 100 維，怎麼回到你原來的表示?(?)，這可能是 1000 維的數

組？

如圖：

6 主成分分析法的應用建議

錯誤的主要成分分析情況：乙個常見錯誤使用主要成分分析的情況是，將其用於減少過

擬合（減少了特徵的數量）。這樣做非常不好，不如嘗試正則化處理。原因在於主要成分分

析只是近似地丟棄掉一些特徵，它並不考慮任何與結果變數有關的資訊，因此可能會丟失非

常重要的特徵。然而當我們進行正則化處理時，會考慮到結果變數，不會丟掉重要的資料。

另乙個常見的錯誤是，預設地將主要成分分析作為學習過程中的一部分，這雖然很多時

候有效果，最好還是從所有原始特徵開始，只在有必要的時候（演算法執行太慢或者占用太多

記憶體）才考慮採用主要成分分析。

機器學習之降維

降維的意義克服維數災難，獲取本質特徵，節省儲存空間，去除無用雜訊，實現資料視覺化資料壓縮視覺化資料主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...

《機器學習》（周志華）筆記之降維（一）

西瓜書第十章降維，以knn開篇，旨在尋找樣本點的近鄰但當維度過高且樣本稀疏時，一種自然地解決思路就是降維人們觀測到的資料樣本雖是高維的，但與學習任務緊密相關的也許僅是乙個低維分布，即高維空間中的乙個低維嵌入。knn 1 不同的k 2 不同的距離計算方式會導致分類結果有顯著地不同但其泛化錯...

機器學習之PCA降維

1.前言如果學習分類演算法，最好從線性的入手，線性分類器最簡單的就是lda，它可以看做是簡化版的svm，如果想理解svm這種分類器，那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術，也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...

機器學習筆記十一之降維

機器學習之降維

《機器學習》（周志華）筆記之降維（一）

機器學習之PCA降維

相關推薦