PCA主成分分析處理鳶尾花資料 python

2021-10-12 17:54:16 字數 1137 閱讀 5915

完整**:

import numpy as np

import pandas as pd

data = pd.read_csv(

"c:\\users\\administrator\\desktop\\iris.csv"

,header=

none

)#data=np.array(data)

data=data[[0

,1,2

,3]]

mean_data=np.mean(data,axis=0)

meanremoved = data - mean_data #去中心

covdata = np.cov(meanremoved, rowvar=0)

#求協方差矩陣

ei**als,ei**ets=np.linalg.eig(np.mat(covdata)

)#求解特徵值和特徵矩陣

ei**alind = np.argsort(ei**als)

#排序ei**alind = ei**alind[:-

(3+1

):-1

]#保留最大的前2個特徵值

redei**ects = ei**ets[

:,ei**alind]

#獲得對應的特徵向量

lowddata = np.mat(meanremoved)

* redei**ects #獲得獲得降維後的特徵

print

("原資料集"

,meanremoved)

print

("降維後的資料集"

,lowddata)

print

("累計方差貢獻率為95%"

)tot=

sum(ei**als)

varexp=

[(redei**ects/tot)*95

for redei**ects in

sorted

(ei**als,reverse=

true)]

print

(varexp)

cum_var_exp=np.cumsum(varexp)

print

(cum_var_exp)

主成分分析 PCA 應用例項 鳶尾花資料集

對鳶尾花資料集採用主成分分析方法,使資料降維。如下圖所示為資料集的格式 資料集中前4列資料分別代表花萼長度,花萼寬度,花瓣長度,花瓣寬度,最後一列為標籤。共有150條資料。我們對此資料集利用主成分分析方法,取出資料集的前4列特徵組成矩陣x,矩陣x的維度為150 4,對其進行轉置後變為4 150.第二...

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...