理解矩陣特徵值與特徵向量

從線性空間的角度看，在乙個定義了內積的線性空間裡，對乙個n階

對稱方陣進行特徵分解，就是產生了該空間的n個標準正交基，然後把矩陣投影到這n個基上。n個特徵向量就是n個標準正交基，而特徵值的模則代表矩陣在每個基上的投影長度。特徵值越大，說明矩陣在對應的特徵向量上的方差越大，功率越大，資訊量越多。

(1)應用到最優化中，意思就是對於r的二次型，自變數在這個方向上變化的時候，對函式值的影響最大，也就是該方向上的方向導數最大。

(2)應用到資料探勘中，意思就是最大特徵值對應的特徵向量方向上包含最多的資訊量，如果某幾個特徵值很小，說明這幾個方向資訊量很小，可以用來降維，也就是刪除小特徵值對應方向的資料，只保留大特徵值方向對應的資料，這樣做以後資料量減小，但有用資訊量變化不大。

—————————————舉兩個例子

----------------------------

應用1 二次型最優化問題

二次型，其中r是已知的二階矩陣，r=[1，0.5；0.5，1]，x是二維列向量，x=[x1；x2]，求y的最小值。

求解很簡單，講一下這個問題與特徵值的關係。

對r特徵分解，特徵向量是[-0.7071；0.7071]和[0.7071；0.7071]，對應的特徵值分別是0.5和1.5。

然後把y的等高線圖畫一下

從圖中看，函式值變化最快的方向，也就是曲面最陡峭的方向，歸一化以後是[0.7071；0.7071]，嗯哼，這恰好是矩陣r的乙個特徵值，而且它對應的特徵向量是最大的。因為這個問題是二階的，只有兩個特徵向量，所以另乙個特徵向量方向就是曲面最平滑的方向。這一點在分析最優化演算法收斂效能的時候需要用到。

二階問題比較直觀，當r階數公升高時，也是一樣的道理。

應用2 資料降維

（興趣不大的可以跳過問題，直接看後面降維方法。）

機器學習中的分類問題，給出178個葡萄酒樣本，每個樣本含有13個引數，比如酒精度、酸度、鎂含量等，這些樣本屬於3個不同種類的葡萄酒。任務是提取3種葡萄酒的特徵，以便下一次給出乙個新的葡萄酒樣本的時候，能根據已有資料判斷出新樣本是哪一種葡萄酒。

問題詳細描述：

uci machine learning repository: wine data set

訓練樣本資料：

原資料有13維，但這之中含有冗餘，減少資料量最直接的方法就是降維。

做法：把資料集賦給乙個178行13列的矩陣r，它的協方差矩陣

主成分分析法----》pca（principal component analysis）。

下面看結果：

這是不降維時候的分類錯誤率

這是降維以後的分類錯誤率。

結論：降維以後分類錯誤率與不降維的方法相差無幾，但需要處理的資料量減小了一半（不降維需要處理13維，降維後只需要處理6維）。