BN多卡同步進行

為什麼不進行多卡同步?

batchnorm的實現都是只考慮了single gpu。也就是說bn使用的均值和標準差是單個gpu算的，相當於縮小了mini－batch size。至於為什麼這樣實現，1）因為沒有sync的需求，因為對於大多數vision問題，單gpu上的mini-batch已經夠大了，完全不會影響結果。2）影響訓練速度，bn layer通常是在網路結構裡面廣泛使用的，這樣每次都同步一下gpus，十分影響訓練速度。2

但是為了達到更好的效果, 實現sync-bn也是很有意義的.

在深度學習平台框架中多數是採用資料並行的方式, 每個gpu卡上的中間資料沒有關聯.

為了實現跨卡同步bn, 在前向運算的時候需要計算全域性的均值和方差，在後向運算時候計算全域性梯度。最簡單的實現方法是先同步求均值，再發回各卡然後同步求方差，但是這樣就同步了兩次。實際上均值和方差可以放到一起求解, 只需要同步一次就可以. 資料並行的方式改為下圖所示:

因此總體batch_size對應的均值和方差可以通過每張gpu中計算得到的 ∑xi

'>∑xi

∑xi 和 ∑xi

2'>∑x2i

∑xi2 reduce相加得到. 在反向傳播時也一樣需要同步一次梯度資訊.

BN多卡同步進行

程序同步程序互斥

軟硬體的同步進製

pytorch 多GPU訓練（單機多卡多機多卡）

BN多卡同步進行

程序同步 程序互斥

軟硬體的同步進製

pytorch 多GPU訓練（單機多卡 多機多卡）

相關推薦

程序同步程序互斥

pytorch 多GPU訓練（單機多卡多機多卡）