歡迎使用CSDN markdown編輯器

2021-07-14 13:28:20 字數 2353 閱讀 1557

主成分分析(principle component analysis, pca)是最為常用的特徵提取方法,被廣泛應用到各領域,如影象處理、綜合評價、語音識別、故障診斷等。它通過對原始資料的加工處理,簡化問題處理的難度並提高資料資訊的訊雜比,以改善抗干擾能力。主成分概念首先由karl parson在2023年引進,不過當時只是對非隨機變數進行討論,2023年hotelling將這個概念推廣到隨機向量。

數學模型

設有n個樣品,每個樣品觀測p項指標(變數):x1,x2, ….xp,得到原始

資料資料陣:

其中

用資料矩陣x的p個向量(即p個指標向量)x1,x2,…xp作線性組合(即

綜合指標向量)為:

簡寫成其中,xi是n維向量,所以fi也是n維向量。上述方程組要求:

且係數aij由下列原則決定:

(1) fi與fj(i≠j,i,j=1,…p)不相關;

(2) f1是x1 ,x2,…,xp的一切線性組合(係數滿足上述方程組)中方差最大的,f2與f1不相關的x1 ,x2,…,xp一切線性組合中方差最大的,…,fp是與f1,f2,…,fp-1都不相關的x1 ,x2,…,xp的一切線性組合中方差最大的。

如何求滿足上述要求的方程組的係數aij呢?下一節將會看到每個方程式中的係數向量(a1i,a2i, …,api),i=1,2, …,p不是別的而恰好是x的協差陣∑的特徵值所對應的特徵向量,也就是說,數學上可以證明使var(f1)達到最大,這個最大值是在協方差陣∑的第乙個特徵值所對應特徵向量處達到。依此類推使var(fp)達到最大值是在協方差陣∑的第p個特徵值所對應特徵向量處達到。

2.2、主成分的幾何意義

從代數學觀點看主成分就是p個變數x1 ,x2,…,xp的一些特殊的線性組合,而在幾何上這些線性組合正是把x1 ,x2,…,xp構成的座標系旋轉產生的新座標系,新座標軸使之通過樣品變差最大的方向(或說具有最大的樣品方差)。下面以最簡單的二元正態變數來說明主成分的幾何意義。

設有n個樣品,每個樣品有p個變數記為x1 ,x2,…,xp,它們的綜合變數記為f1,f2,…,fp 。當p=2時,原變數是x1,x2,它們有下圖的相關關係:

主成分的意義
對於二元正態分佈變數,n個分散的點大致形成為乙個橢圓,若在橢圓長軸方向取座標軸f1,在短軸方向聚f2,這相當於在平面上作乙個座標變換,即按逆時針方向旋轉θ角度,根據旋轉軸變換公式新老座標之間有關係:

矩陣表示為:

顯然ut=u-1且是正交矩陣,即utu=i。

從上圖還容易看出二維平面上的n個點的波動(可用方差表示)大部分可以歸結為在f1軸上的波動,而在f2軸上的波動是較小的。如果上圖的橢圓是相當扁平的,那麼我們可以只考慮f1方向上的波動,忽略f2方向的波動。這樣一來,二維可以降為一維了,只取第乙個綜合變數f1即可。而f1是橢圓的長軸。一般情況 ,p個變數組成p維空間,n個樣品就是p維空間的n個點,對p元正態分佈變數來說,找主成分的問題就是找p維空間中橢球體的主軸問題。

在下面推導過程中,要用到線性代數中的兩個定理:

定理一 若a是p*p階實對稱陣,則一定可以找到正交陣u使

,其中λ1,λ2,…,λp是a的特徵根。

定理二 若上述矩陣a的特徵根所對應的單位特徵向量為u1,u2,…,up令

則實對稱a 屬於不同特徵根所對應的特徵向量是正交的,即

設 ,其中a=(a1,a2,…,ap)t,x=(x1,x2,…,xp)t,求主成分就是尋找x的線性函式atx使相應得方差盡可能地大,即使

達到最大值,且ata=1。

設協方差矩陣∑的特徵根為l1, l2,…, lp,不妨假設l1³ l2 ³ …³lp>0,相應的單位特徵向量為u1, u2,…, up。令

由前面線性代數定理可知:utu=uut=i,且

因此所以

而且,當a=u1時有

因此,a=u1使var(atx)=at∑a達到最大值,且

同理而且

上述推導表明:x1,x2,…,xp的主成分就是以e的特徵向量為係數的線性組合,它們互不相關,其方差為∑的特徵根。

由於∑的特徵根l1³ l2 ³ …³lp>0,所以有varf1³ varf2 ³ …³varfp>0。了解這一點也就可以明白為什麼主成分的名次是按特徵根取值大小的順序排列的。

在解決實際問題時,一般不是取p個主成分,而是根據累計貢獻率的大小取前k個。稱第一主成分的貢獻率為 ,由於有 ,所以 。因此第一主成分的貢獻率就是第一主成分的方差在全部方差 中的比值。這個值越大,表明第一主成分綜合x1,x2,…,xp資訊的力越強。

前兩個主成分的累計貢獻率定義為 , 前k個主成分的累計貢獻率定義為 。如果前k個主成分的貢獻率達到85%,表明取前 k個主成分包含了全部測量指標所具有的資訊,這樣既減少了變數的個數又便於對實際問題進行分析和研究。

歡迎使用CSDN markdow

本markdown編輯器使用stackedit修改而來,用它寫部落格,將會帶來全新的體驗哦 markdown 是一種輕量級標記語言,它允許人們使用易讀易寫的純文字格式編寫文件,然後轉換成格式豐富的html頁面。維基百科 使用簡單的符號標識不同的標題,將某些文字標記為粗體或者斜體,建立乙個鏈結等,詳細...

歡迎毛毛與妞妞使用CSDN markdown編輯器

建立乙個自定義列表 如何建立乙個註腳 注釋也是必不可少的 katex數學公式 新的甘特圖功能,豐富你的文章 uml 圖表 flowchart流程圖 匯出與匯入 你好!這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以仔細閱讀這篇文章,了解一下mar...

歡迎使用CSDN markdow1n編輯器

本markdown編輯器使用stackedit修改而來,用它寫部落格,將會帶來全新的體驗哦 markdown 是一種輕量級標記語言,它允許人們使用易讀易寫的純文字格式編寫文件,然後轉換成格式豐富的html頁面。維基百科 使用簡單的符號標識不同的標題,將某些文字標記為粗體或者斜體,建立乙個鏈結等,詳細...