機器學習筆記十一之降維

2021-10-07 18:39:55 字數 1029 閱讀 7884

我們可以先令? = 1,然後進行主要成分分析,獲得???????和?,然後計算比例是否小於

1%。如果不是的話再令? = 2,如此類推,直到找到可以使得比例小於 1%的最小? 值(原因

是各個特徵之間通常情況存在某種相關性)。

還有更好的方式來選擇k,通過奇異值分解得到【u,s,v】三個引數,

5 重建的壓縮表示

在那裡你可能需要把 1000 維的資料壓縮100 維特徵,或具有三維資料壓縮到一二維表示。所以,如果這是乙個壓縮演算法,應該能回到這個壓縮表示,回到你原有的高維資料的一種近似。

所以,給定的?(?),這可能 100 維,怎麼回到你原來的表示?(?),這可能是 1000 維的數

組?

如圖:

6 主成分分析法的應用建議

錯誤的主要成分分析情況:乙個常見錯誤使用主要成分分析的情況是,將其用於減少過

擬合(減少了特徵的數量)。這樣做非常不好,不如嘗試正則化處理。原因在於主要成分分

析只是近似地丟棄掉一些特徵,它並不考慮任何與結果變數有關的資訊,因此可能會丟失非

常重要的特徵。然而當我們進行正則化處理時,會考慮到結果變數,不會丟掉重要的資料。

另乙個常見的錯誤是,預設地將主要成分分析作為學習過程中的一部分,這雖然很多時

候有效果,最好還是從所有原始特徵開始,只在有必要的時候(演算法執行太慢或者占用太多

記憶體)才考慮採用主要成分分析。

機器學習之降維

降維的意義 克服維數災難,獲取本質特徵,節省儲存空間,去除無用雜訊,實現資料視覺化 資料壓縮 視覺化資料 主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...

《機器學習》(周志華)筆記之降維(一)

西瓜書第十章降維,以knn開篇,旨在尋找樣本點的 近鄰 但當維度過高且樣本稀疏時,一種自然地解決思路就是 降維 人們觀測到的資料樣本雖是高維的,但與學習任務緊密相關的也許僅是乙個低維分布,即高維空間中的乙個低維嵌入。knn 1 不同的k 2 不同的距離計算方式 會導致分類結果有顯著地不同 但其泛化錯...

機器學習之PCA降維

1.前言 如果學習分類演算法,最好從線性的入手,線性分類器最簡單的就是lda,它可以看做是簡化版的svm,如果想理解svm這種分類器,那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...