sklearn機器學習 PCA

2021-10-07 09:07:13 字數 1156 閱讀 1145

pca使用的資訊量衡量指標,就是樣本方差,又稱可解釋性方差,方差越大,特徵所帶的資訊量越多

原理推導

class

sklearn

.decomposition.pca(n_components=

none,*

, copy=

true

, whiten=

false

, svd_solver=

'auto'

, tol=

0.0, iterated_power=

'auto'

, random_state=

none

)

n_components=這個引數可以幫我們指定希望pca降維後的特徵維度數目。

copy=表示是否在執行演算法時,將原始資料複製乙份。預設為true,則執行pca演算法後,原始資料的值不會有任何改變。因為是在原始資料的副本上進行運算的。

whiten=白化。所謂白化,就是對降維後的資料的每個特徵進行標準化,讓方差都為1。對於pca降維本身來說,一般不需要白化。如果你pca降維後有後續的資料處理動作,可以考慮白化。預設值是false,即不進行白化。

svd_solver=即指定奇異值分解svd的方法,由於特徵分解是奇異值分解svd的乙個特例,一般的pca庫都是基於svd實現的。有4個可以選擇的值:。

tol=

iterated_power=

random_state=

注意:當設定 n_components == 'mle』時,需要和引數svd_solver一起使用,且svd_solver需要選擇 『full』 引數;即pca = pca(n_components = 『mle』,svd_solver=『full』);同時要保證輸入資料的樣本數多於特徵數才可執行成功。

另外,有兩個pca類的成員值得關注。第乙個是explained_variance_,它代表降維後的各主成分的方差值,方差值越大,則說明越是重要的主成分。第二個是explained_variance_ratio_,它代表降維後的各主成分的方差值佔總方差值的比例,這個比例越大,則越是重要的主成分。

機器學習 PCA

介紹 pca是一種無監督學習的降維技術 思想1.投影後樣本越分散,保留的資訊越多 2.pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵 做法1.將所有的樣本點向直線w投影 2.目標函式 讓投影後樣本的方差極大 第一步 x減...

機器學習 一 PCA

pca主要是用來對特徵進行降維的 參考 並茂的pca教程 設一矩陣xm行n列 將x的每一行 代表乙個屬性字段 進行零均值化 求出協方差矩陣c 1 mxxt c fracxx c m1 x xt求出協方差矩陣的特徵值及對應的特徵向量 將特徵向量按對應特徵值大小從上到下按行排列成矩陣,取前k行組成矩陣p...

sklearn 機器學習庫

pipeline parameters steps 步驟 列表 list 被連線的 名稱,變換 元組 實現擬合 變換 的列表,按照它們被連線的順序,最後乙個物件是估計器 estimator memory 記憶體引數,instance of sklearn.external.joblib.memory...