去均值操作及初始化權重的作用

如果做過dnn的實驗，大家可能會發現在對資料進行預處理，例如白化或者zscore，甚至是簡單的減均值操作都是可以加速收斂的，例如下圖所示的乙個簡單的例子：

圖中紅點代表2維的資料點，由於影象資料的每一維一般都是0-255之間的數字，因此資料點只會落在第一象限，而且影象資料具有很強的相關性，比如第乙個灰度值為30，比較黑，那它旁邊的乙個畫素值一般不會超過100，否則給人的感覺就像雜訊一樣。由於強相關性，資料點僅會落在第一象限的很小的區域中，形成類似上圖所示的狹長分布。

而神經網路模型在初始化的時候，權重w是隨機取樣生成的，乙個常見的神經元表示為：relu(wx+b) = max(wx+b,0)，即在wx+b=0的兩側，對資料採用不同的操作方法。具體到relu就是一側收縮，一側保持不變。

隨機的wx+b=0表現為上圖中的隨機虛線，注意到，兩條綠色虛線實際上並沒有什麼意義，在使用梯度下降時，可能需要很多次迭代才會使這些虛線對資料點進行有效的分割，就像紫色虛線那樣，這勢必會帶來求解速率變慢的問題。更何況，我們這只是個二維的演示，資料佔據四個象限中的乙個，如果是幾百、幾千、上萬維呢？而且資料在第一象限中也只是佔了很小的一部分區域而已，可想而知不對資料進行預處理帶來了多少運算資源的浪費，而且大量的資料外分割面在迭代時很可能會在剛進入資料中時就遇到了乙個區域性最優，導致overfit的問題。

這時，如果我們將資料減去其均值，資料點就不再只分布在第一象限，這時乙個隨機分介面落入資料分布的概率增加了多少呢？2^n倍！如果我們使用去除相關性的演算法，例如pca和zca白化，資料不再是乙個狹長的分布，隨機分介面有效的概率就又大大增加了。

不過計算協方差矩陣的特徵值太耗時也太耗空間，我們一般最多只用到z-score處理，即每一維度減去自身均值，再除以自身標準差，這樣能使資料點在每維上具有相似的寬度，可以起到一定的增大資料分布範圍，進而使更多隨機分介面有意義的作用。

去均值操作及初始化權重的作用

對於權重初始化的研究

初始化列表的作用

vector的初始化及常用操作

去均值操作及初始化權重的作用

對於權重初始化的研究

初始化列表的作用

vector的初始化及常用操作

相關推薦