Pytorch多GPU訓練踩坑記錄2

使用nn.dataparallel進行多gpu訓練時，對模型進行傳參，有時會出現報錯「runtimeerror: chunk expects at least a 1-dimensional tensor」。

nn.dataparallel的作用是將模型和資料分配到各個gpu上，讓其在各自的gpu上訓練，首先檢查batchsize是否是gpu數量的整數倍，以及dataloader是否設定了drop_last是否是true,如果沒有drop_last，那麼最後乙個batchsize剩下的數量可能不是gpu數量的整數倍，那麼也會出現此錯。如果以上情況都不是報錯原因，還有乙個原因可能是：對模型進行傳參時，有可能傳遞了標量。

nn.dataparallel沒法將標量分散然後分配給各個gpu，因此，多gpu訓練時，最好避免傳參為標量，一定要傳遞這個此引數的話，最好在nn.dataparallel之前傳參，或者最好把引數改為張量。