d precision 混合精度訓練

意思是使用ｆｐ１６進行訓練，同時有乙份ｆｐ３２的引數主副本用於引數更新．那麼實現上其實就很簡單，只需要在每次迭代之前，將每個ｌａｙｅｒ或者ｏｐ的引數輸入都確保是從ｆｐ３２拉取到的，然後轉換成ｆｐ１６輸入；而最後將計算得到梯度，則是更新到ｆｐ３２的主副本上面．這樣做的好處在於可以避免兩種情況下的溢位，第一次就是當梯度特別小，超出ｆｐ１６表達範圍後，就變成了０，進而導致引數無法學習．另外一種情況就是梯度特別大，同樣超出ｆｐ１６可表達的最大值，那麼更新後進一步導致引數不正確．而如果將更新到ｆｐ３２的主副本，那麼更新採用ｆｐ３２，即使再小的梯度，也能夠表示．

這個操作原理是借助求導的連式法則，通過放大ｌｏｓｓ，進而放大整個反向傳播過程的引數梯度，最後在更新時候再縮放回來．這個引數可以固定，也可以根據網路的學習的狀態自適應的進行調整．

其實在實現前面兩個之後我們會發現有些操作還是沒法正常訓練，因為一些中間結果超出了ｆｐ３２所表達發範圍，那麼針對這樣的操作，我們則需要單獨進行處理，直接使用ｆｐ３２的引數，將計算過程強制使用ｆｐ３２．

以上是**所提到的兩個主要ｔｒｉｃｋ, 來避免由於梯度過大或者過小導致的資訊丟失而影響精度．另外還對單純使用ｆｐ16進行模型訓練，分析了個別網路無法學習或者出現模型精度下降的原因．

這次先整理到這，後續會持續更新．．．．

d precision 混合精度訓練

Apex 一鍵混合雙精度計算

工作筆記基於Apex的混合精度加速

3模型大小混合精度對模型訓練和推理的影響

d precision 混合精度訓練

Apex 一鍵混合雙精度計算

工作筆記 基於Apex的混合精度加速

3模型大小 混合精度對模型訓練和推理的影響

相關推薦

工作筆記基於Apex的混合精度加速

3模型大小混合精度對模型訓練和推理的影響