資料預處理z score重要的原因

由於影象資料的每一維一般都是0-255之間的數字，因此資料點只會落在第一象限，而且影象資料具有很強的相關性，比如第乙個灰度值為30，比較黑，那它旁邊的乙個畫素值一般不會超過100，否則給人的感覺就像雜訊一樣。由於強相關性，資料點僅會落在第一象限的很小的區域中，形成狹長分布。

其他領域的資料也多有特徵值分布不均勻，扎堆兒的現象。

而神經網路模型在初始化的時候，權重w是隨機取樣生成的。隨機的wx+b=0表現為上圖中的隨機虛線，注意到，兩條綠色虛線實際上並沒有什麼意義，在使用梯度下降時，可能需要很多次迭代才會使這些虛線對資料點進行有效的分割，就像紫色虛線那樣，這勢必會帶來求解速率變慢的問題。更何況，我們這只是個二維的演示，資料佔據四個象限中的乙個，如果是幾百、幾千、上萬維呢？而且資料在第一象限中也只是佔了很小的一部分區域而已，可想而知不對資料進行預處理帶來了多少運算資源的浪費，而且大量的資料外分割面在迭代時很可能會在剛進入資料中時就遇到了乙個區域性最優，導致overfit的問題。

這時，如果我們將資料減去其均值，資料點就不再只分布在第一象限，這時乙個隨機分介面落入資料分布的概率增加了多少呢？2^n倍！如果我們使用去除相關性的演算法，例如pca和zca白化，資料不再是乙個狹長的分布，隨機分介面有效的概率就又大大增加了。

不過計算協方差矩陣的特徵值太耗時也太耗空間，我們一般最多只用到z-score處理，即每一維度減去自身均值，再除以自身標準差，這樣能使資料點在每維上具有相似的寬度，可以起到一定的增大資料分布範圍，進而使更多隨機分介面有意義的作用。

資料預處理z score重要的原因

資料預處理歸一化與z score標準化

資料的預處理

機器翻譯重要過程 1 資料預處理

資料預處理z score重要的原因

資料預處理 歸一化與z score標準化

資料的預處理

機器翻譯重要過程 1 資料預處理

相關推薦

資料預處理歸一化與z score標準化