資料預處理

1. 中心化

資料預處理中乙個最常見的處理辦法就是每個特徵維度減去相應的均值實現中心化，這樣可以使得資料變成0均值，特別對於一些影象資料，為了方便我們將所有的資料都減去乙個相同的值。

2.標準化

使得資料都變成0均值之後，還需要使用標準化的做法讓資料不同的特徵維度都有著相同的規模。有兩種常用的方法：一種是除以標準差，這樣可以使得新資料的分布接近標準高斯分布：還有一種常用的做法就是讓每個特徵維度的最大值和最小值按照比例縮小到-1~1之間。

如果知道輸入不同特徵有著不同的規模，那就需要使用標準化的方法讓他們處於同乙個規模下，這對於機器學習而言非常重要。

pca是一種處理資料的方法，在進行這一步之前，首先要將資料中心化，然後計算資料的協方差矩陣，這一步非常簡單。協方差矩陣是半正定的，可以通過這個協方差矩陣來進行奇異值分解（svd），然後對資料進行去相關性，將其投影到乙個特徵空間，我們能夠取一些較大的，主要特徵向量來減低資料的維度，去掉一些沒有方差的維度。

4.白雜訊

白雜訊也是一種處理資料的方式，首先會跟pca一樣將資料投影到乙個特徵空間，然後每個維度除以特徵值來標準化這些資料，直觀上就是乙個多元高斯分布轉化到了乙個0均值，協方差為1的多元高斯分布

上圖形象的展示了pca白雜訊處理之後的效果，但是白雜訊的處理會增強資料中的雜訊，因為其增強了資料的所有維度，包括了一些方差較小的不相關的維度。

在實際處理資料中，中心化和標準化都特別重要。我們計算訓練集的統計量比如均值，然後將這些統計量應用到測試集和驗證集當中。但是pca和白雜訊在卷積中基本不用，因為卷積網路可以自動學習如何提取這些特徵而不需要人工干預。

資料預處理

資料預處理

資料預處理

資料預處理

相關推薦