Tensorflow实现多GPU并行方式
Tebsorflow开源实现多GPU训练cifar10数据集:cifar10_multi_gpu_train.py
Tensorflow开源实现cifar10神经网络:cifar10.py
Tensorflow中的并行分为模型并行和数据并行。模型并行需要根据不同模型设计不同的并行方式,其主要原理是将模型中不同计算节点放在不同硬件资源上运算。比较通用且能简便地实现大规模并行的方式是数据并行,同时使用多个硬件资源来计算不同batch的数据梯度,然后汇总梯度进行全局更新。
数据并行几乎适用于所有深度学习模型,总是可以利用多块GPU同时训练多个batch数据,运行在每块GPU上的模型都基于同一个神经网络,网络结构一样,并且共享模型参数。
importos
importre
importtime
importnumpyasnp
importtensorflowastf
importcifar10_input
importcifar10
batch_size=128
max_steps=1000
num_gpus=1#gpu数量
#在scope下生成神经网络并返回scope下的loss
deftower_loss(scope):
#数据集的路径可以在cifar10.py中的tf.app.flags.DEFINE_string中定义
images,labels=cifar10.distorted_inputs()
logits=cifar10.inference(images)#生成神经网络
_=cifar10.loss(logits,labels)#不直接返回loss而是放到collection
losses=tf.get_collection('losses',scope)#获取当前GPU上的loss(通过scope限定范围)
total_loss=tf.add_n(losses,name='total_loss')
returntotal_loss
'''
外层是不同GPU计算的梯度,内层是某个GPU对应的不同var的值
tower_grads=
[[(grad0_gpu0,var0_gpu0),(grad1_gpu0,var1_gpu0),...],
[(grad0_gpu1,var0_gpu1),(grad1_gpu1,var1_gpu1),...]]
zip(*tower_grads)=相当于转置了
[[(grad0_gpu0,var0_gpu0),(grad0_gpu1,var0,gpu1),...],
[(grad1_gpu0,var1_gpu0),(grad1_gpu1,var1_gpu1),...]]
'''
defaverage_gradients(tower_grads):
average_grads=[]
forgrad_and_varsinzip(*tower_grads):
grads=[tf.expand_dims(g,0)forg,_ingrad_and_vars]
grads=tf.concat(grads,0)
grad=tf.reduce_mean(grads,0)
grad_and_var=(grad,grad_and_vars[0][1])
#[(grad0,var0),(grad1,var1),...]
average_grads.append(grad_and_var)
returnaverage_grads
deftrain():
#默认的计算设备为CPU
withtf.Graph().as_default(),tf.device('/cpu:0'):
#[]表示没有维度,为一个数
#trainable=False,不会加入GraphKeys.TRAINABLE_VARIABLES参与训练
global_step=tf.get_variable('global_step',[],
initializer=tf.constant_initializer(0),
trainable=False)
num_batches_per_epoch=cifar10.NUM_EXAMPLES_PER_EPOCH_FOR_TRAIN/batch_size
decay_steps=int(num_batches_per_epoch*cifar10.NUM_EPOCHS_PER_DECAY)
#https://tensorflow.google.cn/api_docs/python/tf/train/exponential_decay
#decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)
#staircaseisTrue,thenglobal_step/decay_stepsisanintegerdivision
lr=tf.train.exponential_decay(cifar10.INITIAL_LEARNING_RATE,
global_step,
decay_steps,
cifar10.LEARNING_RATE_DECAY_FACTOR,
staircase=True)
opt=tf.train.GradientDescentOptimizer(lr)
tower_grads=[]
foriinrange(num_gpus):
withtf.device('/gpu:%d'%i):
withtf.name_scope('%s_%d'%(cifar10.TOWER_NAME,i))asscope:
loss=tower_loss(scope)
#让神经网络的变量可以重用,所有GPU使用完全相同的参数
#让下一个tower重用参数
tf.get_variable_scope().reuse_variables()
grads=opt.compute_gradients(loss)
tower_grads.append(grads)
grads=average_gradients(tower_grads)
apply_gradient_op=opt.apply_gradients(grads,global_step=global_step)
init=tf.global_variables_initializer()
#True会自动选择一个存在并且支持的设备来运行
sess=tf.Session(config=tf.ConfigProto(allow_soft_placement=True))
sess.run(init)
tf.train.start_queue_runners(sess=sess)
forstepinrange(max_steps):
start_time=time.time()
_,loss_value=sess.run([apply_gradient_op,loss])
duration=time.time()-start_time
ifstep%10==0:
num_examples_per_step=batch_size*num_gpus
examples_per_sec=num_examples_per_step/duration
sec_per_batch=duration/num_gpus
print('step%d,loss=%.2f(%.1fexamples/sec;%.3fsec/batch)'
%(step,loss_value,examples_per_sec,sec_per_batch))
if__name__=='__main__':
train()
以上这篇Tensorflow实现多GPU并行方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。