特徵值和特徵向量的幾何含義理解

2021-10-01 06:08:10 字數 1892 閱讀 3140

首先我們先把特徵值和特徵向量的定義複習一下:

定義: 設a是n階矩陣,如果數λ和n維非零向量x使關係式

成立,那麼,這樣的數λ稱為矩陣a的特徵值,非零向量x稱為a的對應於特徵值λ的特徵向量,(1)式還可以寫為:

如果想求出矩陣對應的特徵值和特徵向量就是求式(2)的解了。

那麼,問題來了,這個式子要怎麼理解呢?

首先得先弄清矩陣的概念:乙個矩陣代表的是乙個線性變換規則,而乙個矩陣的乘法執行代表的是乙個變換;

比如有乙個矩陣a:

乙個列向量為x為:

乙個矩陣的乘法為:

向量x通過矩陣a這個變化規則就可以變換為向量y了

在幾何上的變換就類似於這樣:

知道了這個就可以從幾何上理解特徵值和特徵向量是什麼意思了,由  

可知:所以,確定了特徵值之後,向量x的變換為:                         

引用《線性代數的幾何意義》的描述:「矩陣乘法對應了乙個變換,是把任意乙個向量變成另乙個方向或長度都大多不同的新向量。在這個變換的過程中,原向量主要發生旋轉、伸縮的變化。如果矩陣對某乙個向量或某些向量只發生伸縮變換,不對這些向量產生旋轉的效果,那麼這些向量就稱為這個矩陣的特徵向量,伸縮的比例就是特徵值。」

首先,理解一下資訊量這個概念

看幾張圖:

如果我們單獨看某乙個維度的話,比如看x1這個維度

可以看到將點投影到x1這個維度上看的話,圖1的資料離散性最高,圖3較低,圖2資料離散性是最低的。資料離散性越大,代表資料在所投影的維度上具有越高的區分度,這個區分度就是資訊量。如果我們用方差來形容資料的離散性的話,就是資料方差越大,表示資料的區分度越高,也就是蘊含的資訊量是越大的。

基於這個知識,如果我們想對資料進行降維的話,比如圖1的兩個維度的資料降成一維,我們可以選擇保留x1這個維度的資料,因為在這個維度上蘊含的資訊量更多。

同理,圖2就可以保留x2這個維度的資料。但是,問題來了,圖3應該保留哪個維度的資料呢?答案是保留哪個維度都不好,都會丟失較大的資訊量。但是,如果我們把圖3的座標軸旋轉一下

比較容易看出,圖3在新的座標軸下就能進行降維了。所以選取正確的座標軸,然後根據各個維度上的資料方差大小,決定保留哪些維度的資料,這樣的做法就是主成分分析的核心思想。

選取正確的座標軸的過程中,我們需要乙個矩陣變換,就類似於這樣:   

也就是:

其實,經過數學上的推導的,我們就可以知道,特徵值對應的特徵向量就是理想中想取得正確的座標軸,而特徵值就等於資料在旋轉之後的座標上對應維度上的方差。

也就是說,直接求出矩陣a的特徵向量得出對應的特徵向量。我們就能找到旋轉後正確的座標軸。這個就是特徵值和特徵向量的乙個實際應用:「得出使資料在各個維度區分度達到最大的座標軸。」

所以,在資料探勘中,就會直接用特徵值來描述對應特徵向量方向上包含的資訊量,而某一特徵值除以所有特徵值的和的值就為:該特徵向量的方差貢獻率(方差貢獻率代表了該維度下蘊含的資訊量的比例)。

通常經過特徵向量變換下的資料被稱為變數的主成分,當前m個主成分累計的方差貢獻率達到乙個較高的百分數(如85%以上)的話,就保留著這m個主成分的資料。實現了對資料進行降維的目的。整個主成分分析的演算法原理也就是這個。

特徵值和特徵向量理解

1 線性變換 首先來個線性方程組 換個表達方式,所以可以寫成如下格式,現在有矩陣a,列向量x和y,向量x通過矩陣a線性變換到y,如下圖 2 接下來,我們說明上述公式的幾何意義。也就是 這就一目了然了,x 經過線性變換後變為y,涉及到了兩個變化,伸縮和旋轉,也就是x先作伸縮變換,然後旋轉到y的位置。矩...

如何理解特徵值和特徵向量

學完線性代數的同學,可能會對線性代數的很多概念有所疑惑.這個東西有什麼用?那個玩意定義出來有什麼意義?本文將 線性代數中及其重要的兩個概念 特徵值與特徵向量.ps 下文中的矩陣 a 均認為是方陣 矩陣不單單是二維的陣列,它更重要的角色是對映 y ax y ax 就相當於y f x 矩陣 a 是把向量...

特徵值和特徵向量

在剛開始學的特徵值和特徵向量的時候只是知道了定義和式子,並沒有理解其內在的含義和應用,這段時間整理了相關的內容,跟大家分享一下 首先我們先把特徵值和特徵向量的定義複習一下 定義 設a是n階矩陣,如果數 和n維非零向量x使關係式 成立,那麼,這樣的數 稱為矩陣a的特徵值,非零向量x稱為a的對應於特徵值...