第四章 PCA降維

2022-04-29 17:09:12 字數 754 閱讀 7669

目錄1. pca降維

pca:主成分分析(principe conponents analysis)

2. 維度的概念

一般認為時間的一維,而空間的維度,眾說紛紜。霍金認為空間是10維的。

3. 為什麼要進行降維?

維度災難:當維度超過一定值的時候,分類器效果呈現明顯下降。

pca旨在找到資料中的主成分,並利用這些主成分表徵原始資料,從而達到降維的目的。舉乙個簡單的例子,在三維空間中有一系列資料點,這些點分布在乙個過原點的平面上。如果我們用自然座標系x,y,z三個軸來表示資料,就需要使用三個維度。而實際上,這些點只出現在乙個二維平面上,如果我們通過座標系旋轉變換使得資料所在平面與x,y平面重合,那麼我們就可以通過x,y兩個維度表達原始資料,並且沒有任何損失,這樣就完成了資料的降維。而x,y兩個軸所包含的資訊就是我們要找到的主成分。

4. 目標

提取最有價值的資訊(基於方差)

5. 降維後的資料的意義?

降維後物理意義變得模糊,但是不影響我們去後續做分類、**等的結果。

6. pca推導過程

7. 結論

求解步驟

對樣本資料進行中心化處理

求協方差矩陣

對協方差矩陣進行特徵值分解,將特徵值從到小排列

取特徵值前d大對應的特徵向量w1, w2, ..., wd。通過對映關係將n維樣本對映到d維空間。

降維後的資訊佔比定義為:

第四章 繼承

一 為什麼要繼承 在物件導向中我們將具有很多重複內容的類中的內容提取出來,寫成乙個單獨的類 其他類只需要繼承就能取得這些功能,同時可以在自己類中寫入獨特的自定義方法 二 繼承語法 inte ce circle nsobject 繼承是在介面中定義的 冒號後的類名是要整合的類,nsobject 是co...

第四章 物件

三個特性 身份 型別 值 每個物件都有唯一的身份來標識自己,使用內建函式id 得到。例子 usr bin env python coding utf 8 a 32 print a b a print id a id b 結果 d python27 python.exe e workp python ...

第四章 其他

sizeof和strlen 區別sizeof以位元組為單位給出資料的大小,strlen 函式以字元為單位給出字串的長度。使用strlen 函式要加 include標頭檔案。sizeof計算字元時會將標誌字串結束的不可見的空字元計算在內。定義符號常量 方法一 define name value 優點 ...