Pytorch DataLoader 变长数据处理方式
关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据,这篇官方文档已经说得很清楚了,这里就不在赘述。
现在的问题:有的时候,特别对于NLP任务来说,输入的数据可能不是定长的,比如多个句子的长度一般不会一致,这时候使用DataLoader加载数据时,不定长的句子会被胡乱切分,这肯定是不行的。
解决方法是重写DataLoader的collate_fn,具体方法如下:
#假如每一个样本为: sample={ #一个句子中各个词的id 'token_list':[5,2,4,1,9,8], #结果y 'label':5, } #重写collate_fn函数,其输入为一个batch的sample数据 defcollate_fn(batch): #因为token_list是一个变长的数据,所以需要用一个list来装这个batch的token_list token_lists=[item['token_list']foriteminbatch] #每个label是一个int,我们把这个batch中的label也全取出来,重新组装 labels=[item['label']foriteminbatch] #把labels转换成Tensor labels=torch.Tensor(labels) return{ 'token_list':token_lists, 'label':labels, } #在使用DataLoader加载数据时,注意collate_fn参数传入的是重写的函数 DataLoader(trainset,batch_size=4,shuffle=True,num_workers=4,collate_fn=collate_fn)
使用以上方法,可以保证DataLoader能Load出一个batch的数据,load出来的东西就是重写的collate_fn函数最后return出来的字典。
以上这篇PytorchDataLoader变长数据处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。