資料預處理z score重要的原因

2021-09-11 07:40:35 字數 780 閱讀 5437

由於影象資料的每一維一般都是0-255之間的數字,因此資料點只會落在第一象限,而且影象資料具有很強的相關性,比如第乙個灰度值為30,比較黑,那它旁邊的乙個畫素值一般不會超過100,否則給人的感覺就像雜訊一樣。由於強相關性,資料點僅會落在第一象限的很小的區域中,形成狹長分布。

其他領域的資料也多有特徵值分布不均勻,扎堆兒的現象。

而神經網路模型在初始化的時候,權重w是隨機取樣生成的。隨機的wx+b=0表現為上圖中的隨機虛線,注意到,兩條綠色虛線實際上並沒有什麼意義,在使用梯度下降時,可能需要很多次迭代才會使這些虛線對資料點進行有效的分割,就像紫色虛線那樣,這勢必會帶來求解速率變慢的問題。更何況,我們這只是個二維的演示,資料佔據四個象限中的乙個,如果是幾百、幾千、上萬維呢?而且資料在第一象限中也只是佔了很小的一部分區域而已,可想而知不對資料進行預處理帶來了多少運算資源的浪費,而且大量的資料外分割面在迭代時很可能會在剛進入資料中時就遇到了乙個區域性最優,導致overfit的問題。

這時,如果我們將資料減去其均值,資料點就不再只分布在第一象限,這時乙個隨機分介面落入資料分布的概率增加了多少呢?2^n倍!如果我們使用去除相關性的演算法,例如pca和zca白化,資料不再是乙個狹長的分布,隨機分介面有效的概率就又大大增加了。

不過計算協方差矩陣的特徵值太耗時也太耗空間,我們一般最多只用到z-score處理,即每一維度減去自身均值,再除以自身標準差,這樣能使資料點在每維上具有相似的寬度,可以起到一定的增大資料分布範圍,進而使更多隨機分介面有意義的作用。

資料預處理 歸一化與z score標準化

歸一化 歸一化是一種簡化計算的方式,即將有量綱 的表示式,經過變換,化為 無量綱的表示式,成為 標量。在多種 計算中都經常用到這種方法。線性函式轉換 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後的值,maxvalue minvalue分別為樣本的最大值和...

資料的預處理

機器學習演算法無法理解原始資料,所以需對原始資料進行預處理,常用預處理如下 預處理主要使用了preprocessing包,所以需對該包進行匯入 import numpy as np from sklearn import preprocessing data np.array 3,1.5,2,5.4...

機器翻譯重要過程 1 資料預處理

目前有如之前基於統計的開源翻譯系統介紹中提到的許多開源統計翻譯系統,在由原始平行語料到形成最後的翻譯系統的整個過程中,它們有一些相同的處理步驟,從這次的文章開始,陸續介紹幾個最重要的過程做法及其意義。一般在我們得到雙語平行語料之後,在構建雙語統計翻譯系統之前,都會有乙個雙語資料預處理的過程,為後續例...