CS231N 5 神經網路靜態部分資料預處理等

1. 白化

白化操作的輸入是特徵基準上的資料，然後對每個維度除以其特徵值來對數值範圍進行歸一化。該變換的幾何解釋是：如果資料服從多變數的高斯分布，那麼經過白化後，資料的分布將會是乙個均值為零，且協方差相等的矩陣。該操作的**如下：

# 對資料進行白化操作:
# 除以特徵值 
xwhite = xrot / np.sqrt(s + 1e-5)

警告：誇大的雜訊。注意分母中新增了1e-5（或乙個更小的常量）來防止分母為0。該變換的乙個缺陷是在變換的過程中可能會誇大資料中的雜訊，這是因為它將所有維度都拉伸到相同的數值範圍，這些維度中也包含了那些只有極少差異性(方差小)而大多是雜訊的維度。在實際操作中，這個問題可以用更強的平滑來解決（例如：採用比1e-5更大的值）。

2. 預處理注意

任何預處理策略（比如資料均值）都只能在訓練集資料上進行計算，演算法訓練完畢後再應用到驗證集或者測試集上。（避免過擬合等）

3.權重初始化

4. 正則化

""" 普通版隨機失活: 不推薦實現 (看下面筆記) """
p = 0.5 # 啟用神經元的概率. p值更高 = 隨機失活更弱
def train_step(x):
""" x中是輸入資料 """
# 3層neural network的前向傳播
h1 = np.maximum(0, np.dot(w1, x) + b1)
u1 = np.random.rand(*h1.shape) < p # 第乙個隨機失活遮罩
h1 *= u1 # drop!
h2 = np.maximum(0, np.dot(w2, h1) + b2)
u2 = np.random.rand(*h2.shape) < p # 第二個隨機失活遮罩
h2 *= u2 # drop!
out = np.dot(w3, h2) + b3
# 反向傳播:計算梯度... (略)
# 進行引數更新... (略)
def predict(x):
# 前向傳播時模型整合
h1 = np.maximum(0, np.dot(w1, x) + b1) * p # 注意：啟用資料要乘以p
h2 = np.maximum(0, np.dot(w2, h1) + b2) * p # 注意：啟用資料要乘以p
out = np.dot(w3, h2) + b3

""" 
反向隨機失活: 推薦實現方式.
在訓練的時候drop和調整數值範圍，測試時不做任何事.
"""p = 0.5 # 啟用神經元的概率. p值更高 = 隨機失活更弱
def train_step(x):
# 3層neural network的前向傳播
h1 = np.maximum(0, np.dot(w1, x) + b1)
u1 = (np.random.rand(*h1.shape) < p) / p # 第乙個隨機失活遮罩. 注意/p!
h1 *= u1 # drop!
h2 = np.maximum(0, np.dot(w2, h1) + b2)
u2 = (np.random.rand(*h2.shape) < p) / p # 第二個隨機失活遮罩. 注意/p!
h2 *= u2 # drop!
out = np.dot(w3, h2) + b3
# 反向傳播:計算梯度... (略)
# 進行引數更新... (略)
def predict(x):
# 前向傳播時模型整合
h1 = np.maximum(0, np.dot(w1, x) + b1) # 不用數值範圍調整了
h2 = np.maximum(0, np.dot(w2, h1) + b2)
out = np.dot(w3, h2) + b3

5. 分類問題

當面對乙個回歸任務，首先考慮是不是必須使用回歸模型。一般而言，盡量把你的輸出變成二分類，然後對它們進行分類，從而變成乙個分類問題。

CS231N 5 神經網路靜態部分資料預處理等

CS231N 4 神經網路

cs231n 神經網路筆記部分總結工作1

cs231n筆記04 神經網路訓練（上）

CS231N 5 神經網路靜態部分 資料預處理等

CS231N 4 神經網路

cs231n 神經網路筆記 部分總結工作1

cs231n筆記04 神經網路訓練（上）

相關推薦

CS231N 5 神經網路靜態部分資料預處理等

cs231n 神經網路筆記部分總結工作1