Slim模型部署多GPU

單gpu時，思路很簡單，前向、後向都在乙個gpu上進行，模型引數更新時只涉及乙個gpu。

多gpu時，有模型並行和資料並行兩種情況。

模型並行指模型的不同部分在不同gpu上執行。

資料並行指不同gpu上訓練資料不同，但模型是同乙個（相當於是同乙個模型的副本）。

tensorflow支援的是資料並行。

資料並行的原理：cpu負責梯度平均和引數更新，在gpu上訓練模型的副本。

多gpu平行計算的過程如下：

1）模型副本定義在gpu上; 2）對於每乙個gpu, 都是從cpu獲得資料,前向傳播進行計算,得到loss,並計算出梯度; 3）cpu接到gpu的梯度,取平均值,然後進行梯度更新。

這個在tf的實現思路如下：

模型引數儲存在乙個指定gpu/cpu上，模型引數的副本在不同gpu上，每次訓練，提供batch_size*gpu_num資料，並等量拆分成多個batch，分別送入不同gpu。前向在不同gpu上進行，模型引數更新時，將多個gpu後向計算得到的梯度資料進行平均，並在指定gpu/cpu上利用梯度資料更新模型引數。

假設有兩個gpu（gpu0,gpu1），模型引數實際存放在cpu0上，實際一次訓練過程如下圖所示：

為了能讓乙個slim模型在多個gpu上訓練更加容易，這個模組提供了一系列幫助函式，比如create_clones()、optimize_clones()、deploy()、gather_clone_loss()、_add_gradients_summaries()、_sum_clones_gradients()等，該模組位於：

用法如下：

g = tf.graph()
# 定義部署配置資訊，你可以將此類的例項傳遞給deploy()以指定如何部署要構建的模型。 如果未傳遞，則將使用從預設deployment_hparams構建的例項。
config = model_deploy.deploymentconfig(num_clones=2, clone_on_cpu=true)
# 在儲存變數的裝置上建立global step 
with tf.device(config.variables_device()):
global_step = slim.create_global_step()
# 定義輸入
with tf.device(config.inputs_device()):
images, labels = loaddata(...)
inputs_queue = slim.data.prefetch_queue((images, labels))
# 定義優化器
with tf.device(config.optimizer_device()):
optimizer = tf.train.momentumoptimizer(flags.learning_rate, flags.momentum)
# 定義模型和損失函式
def model_fn(inputs_queue):
images, labels = inputs_queue.dequeue()
predictions = createnetwork(images)
slim.losses.log_loss(predictions, labels)
# 模型部署
model_dp = model_deploy.deploy(config, model_fn, [inputs_queue],optimizer=optimizer)
# 開始訓練
slim.learning.train(model_dp.train_op, my_log_dir,summary_op=model_dp.summary_op)

clone namedtuple：把那些每次呼叫model_fn的關聯值儲存在一起

deployedmodel namedtuple：把那些需要被多個副本訓練的值儲存在一起

deploymentconfig的引數：

Slim模型部署多GPU

GPU程式設計模型

pytorch 多GPU訓練（單機多卡多機多卡）

caffe 呼叫多塊gpu

Slim模型部署多GPU

GPU程式設計模型

pytorch 多GPU訓練（單機多卡 多機多卡）

caffe 呼叫多塊gpu

相關推薦

pytorch 多GPU訓練（單機多卡多機多卡）