微客导航 » 文章资讯 » Pytorch DataLoader 变长数据处理方式

Pytorch DataLoader 变长数据处理方式

2023-08-03 09:49:04 340

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。

现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。

解决方法是重写DataLoader的collate_fn，具体方法如下：

#假如每一个样本为：
sample={
	#一个句子中各个词的id
	'token_list':[5,2,4,1,9,8],
	#结果y
	'label':5,
}


#重写collate_fn函数，其输入为一个batch的sample数据
defcollate_fn(batch):
	#因为token_list是一个变长的数据，所以需要用一个list来装这个batch的token_list
token_lists=[item['token_list']foriteminbatch]

#每个label是一个int，我们把这个batch中的label也全取出来，重新组装
labels=[item['label']foriteminbatch]
#把labels转换成Tensor
labels=torch.Tensor(labels)
return{
'token_list':token_lists,
'label':labels,
}


#在使用DataLoader加载数据时，注意collate_fn参数传入的是重写的函数
DataLoader(trainset,batch_size=4,shuffle=True,num_workers=4,collate_fn=collate_fn)

使用以上方法，可以保证DataLoader能Load出一个batch的数据，load出来的东西就是重写的collate_fn函数最后return出来的字典。

以上这篇PytorchDataLoader变长数据处理方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
3162201930
czq8825@qq.com

Pytorch DataLoader 变长数据处理方式

热门推荐

随机推荐