Tensorflow实现多GPU并行方式

2023-08-02 12:03:03 343

Tebsorflow开源实现多GPU训练cifar10数据集：cifar10_multi_gpu_train.py

Tensorflow开源实现cifar10神经网络：cifar10.py

Tensorflow中的并行分为模型并行和数据并行。模型并行需要根据不同模型设计不同的并行方式，其主要原理是将模型中不同计算节点放在不同硬件资源上运算。比较通用且能简便地实现大规模并行的方式是数据并行，同时使用多个硬件资源来计算不同batch的数据梯度，然后汇总梯度进行全局更新。

数据并行几乎适用于所有深度学习模型，总是可以利用多块GPU同时训练多个batch数据，运行在每块GPU上的模型都基于同一个神经网络，网络结构一样，并且共享模型参数。

importos
importre
importtime
importnumpyasnp
importtensorflowastf
importcifar10_input
importcifar10

batch_size=128
max_steps=1000
num_gpus=1#gpu数量


#在scope下生成神经网络并返回scope下的loss
deftower_loss(scope):
#数据集的路径可以在cifar10.py中的tf.app.flags.DEFINE_string中定义
images,labels=cifar10.distorted_inputs()
logits=cifar10.inference(images)#生成神经网络
_=cifar10.loss(logits,labels)#不直接返回loss而是放到collection
losses=tf.get_collection('losses',scope)#获取当前GPU上的loss(通过scope限定范围)
total_loss=tf.add_n(losses,name='total_loss')
returntotal_loss


'''
外层是不同GPU计算的梯度，内层是某个GPU对应的不同var的值
tower_grads=
[[(grad0_gpu0,var0_gpu0),(grad1_gpu0,var1_gpu0),...],
[(grad0_gpu1,var0_gpu1),(grad1_gpu1,var1_gpu1),...]]
zip(*tower_grads)=相当于转置了
[[(grad0_gpu0,var0_gpu0),(grad0_gpu1,var0,gpu1),...],
[(grad1_gpu0,var1_gpu0),(grad1_gpu1,var1_gpu1),...]]
'''


defaverage_gradients(tower_grads):
average_grads=[]
forgrad_and_varsinzip(*tower_grads):
grads=[tf.expand_dims(g,0)forg,_ingrad_and_vars]
grads=tf.concat(grads,0)
grad=tf.reduce_mean(grads,0)
grad_and_var=(grad,grad_and_vars[0][1])
#[(grad0,var0),(grad1,var1),...]
average_grads.append(grad_and_var)
returnaverage_grads


deftrain():
#默认的计算设备为CPU
withtf.Graph().as_default(),tf.device('/cpu:0'):
#[]表示没有维度，为一个数
#trainable=False,不会加入GraphKeys.TRAINABLE_VARIABLES参与训练
global_step=tf.get_variable('global_step',[],
initializer=tf.constant_initializer(0),
trainable=False)
num_batches_per_epoch=cifar10.NUM_EXAMPLES_PER_EPOCH_FOR_TRAIN/batch_size
decay_steps=int(num_batches_per_epoch*cifar10.NUM_EPOCHS_PER_DECAY)
#https://tensorflow.google.cn/api_docs/python/tf/train/exponential_decay
#decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)
#staircaseisTrue,thenglobal_step/decay_stepsisanintegerdivision
lr=tf.train.exponential_decay(cifar10.INITIAL_LEARNING_RATE,
global_step,
decay_steps,
cifar10.LEARNING_RATE_DECAY_FACTOR,
staircase=True)
opt=tf.train.GradientDescentOptimizer(lr)

tower_grads=[]
foriinrange(num_gpus):
withtf.device('/gpu:%d'%i):
withtf.name_scope('%s_%d'%(cifar10.TOWER_NAME,i))asscope:
loss=tower_loss(scope)
#让神经网络的变量可以重用，所有GPU使用完全相同的参数
#让下一个tower重用参数
tf.get_variable_scope().reuse_variables()
grads=opt.compute_gradients(loss)
tower_grads.append(grads)
grads=average_gradients(tower_grads)
apply_gradient_op=opt.apply_gradients(grads,global_step=global_step)

init=tf.global_variables_initializer()
#True会自动选择一个存在并且支持的设备来运行
sess=tf.Session(config=tf.ConfigProto(allow_soft_placement=True))
sess.run(init)
tf.train.start_queue_runners(sess=sess)

forstepinrange(max_steps):
start_time=time.time()
_,loss_value=sess.run([apply_gradient_op,loss])
duration=time.time()-start_time

ifstep%10==0:
num_examples_per_step=batch_size*num_gpus
examples_per_sec=num_examples_per_step/duration
sec_per_batch=duration/num_gpus

print('step%d,loss=%.2f(%.1fexamples/sec;%.3fsec/batch)'
%(step,loss_value,examples_per_sec,sec_per_batch))



if__name__=='__main__':
train()

以上这篇Tensorflow实现多GPU并行方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

Tensorflow实现多GPU并行方式

热门推荐

随机推荐