python中struct模块之字节型数据的处理方法

2023-08-15 19:31:04 1318

简介

这个模块处理python中常见类型数据和Pythonbytes之间转换。这可用于处理存储在文件或网络连接中的bytes数据以及其他来源。在python中没有专门处理字节的数据类型，建立字节型数据也比较麻烦，我们知道的bytes()函数也只能对无符号整型做处理，并且数据如下（没错，数字为多少就有多少个\x00，我们要是用这种方式来存储大量数据，结果可想而知）：

va=bytes(1)#va:'\x00'
vb=bytes(2)#vb:'\x00\x00'
vc=bytes(5)#vc:'\x00\x00\x00\x00\x00'

但在python中str类型中既可以用字符串表示也可以以字节方式表示，所以你定义一个字节型的字符串常量，python是能处理它的：

va='\x26'#va:'&'

struct处理

字节顺序

一个数据有多个字节表示的时候，字节的顺序不同也就决定了值，在struct中有以下几种字节顺序：

字符	字节顺序	尺寸	对齐方式
@	本机	本机	本机
=	本机	标准	无
<	小端	标准	无
>	大端	标准	无
！	网络	标准	无

对于字节顺序，只有大端和小端两种方式，只是比如你用@和=代表你用本机的字节顺序，！代表你使用网络的字节顺序。你不指定字节顺序则默认的是@。

本地字节顺序是大端或小端，取决于主机系统。例如，Intelx86和AMD64（x86-64）是小端的;摩托罗拉68000和PowerPCG5是大端;ARM和IntelItanium具有可切换的字节序（双字节序）。使用sys.byteorder来检查你的系统的字节顺序。

数据格式

struct支持的打包解包的数据格式如下，我们需要指定格式才能对应处理，其中对应尺寸已列出（以字节为单位）：

字符	C类型	python类型	标准尺寸
x	填充字节	没有意义的值
c	char	长度为1的字节	1
b	signedchar	整型	1
B	unsignedchar	整型	1
？	_Bool	布尔	1
h	short	整型	2
H	unsignedshort	整型	2
i	int	整型	4
I	unsignedint	整型	4
l	long	整型	4
L	unsignedlong	整型	4
q	longlong	整型	8
Q	unsignedlonglong	整型	8
n	ssize_t	整型
N	size_t	整型
e		浮动	2
f	float	浮动	4
d	double	浮动	8
s	char[]	字节
p	char[]	字节
P	void*	整型

打包

通过struct的pack(fmt,*args)来实现对各种数据的打包（转换为对应字节数据），pack的需要传递的参数fmt就是数据的格式，包括了字节顺序、数据类型；后面的*args参数是需要打包的数据。

vaa=struct.pack('>I',1255)#vaa:'\x00\x00\x04\xe7'1*4=1个字节vab=struct.pack('>II',1255,23)#vab:'\x00\x00\x04\xe7\x00\x00\x00\x17'2*4=8个字节vac=struct.pack('>2I?',1255,23,True)#vac:'\x00\x00\x04\xe7\x00\x00\x00\x17\x01'2*4+1=9个字节

我们看上述三个使用例子（数据与数据之间没有填充，都是连续的，比如对于vac我们不知道它是由两个4字节无符号整型和一个布尔构成，我们就无法取得正确的值），看fmt参数：

‘>I'代表了以大端的字节顺序打包一个4字节无符号整型数据，所以后面只跟了一个无符号整型参数1255；

‘>II'代表了以大端的字节顺序打包两个4字节无符号整型数据，所以后面跟了两个个无符号整型参数1255和23；

‘>2I?'代表了以大端的字节顺序打包两个4字节无符号整型和一个布尔型数据，所以后面跟了两个个无符号整型参数1255、23和一个布尔值True。

注意'2I'和'II'，'4I'和'IIII'，'2?'和'??'是一样的效果。

解包

通过struct的unpack(fmt,string)来实现对字符串的解包，fmt和打包的是完全一样的，如下（返回的结果是一个元组）：

vaa=struct.pack('>I',1255)#vaa:'\x00\x00\x04\xe7'
vab=struct.pack('>II',1255,23)#vab:'\x00\x00\x04\xe7\x00\x00\x00\x17'
vaaa=struct.unpack('>I',vaa)#vaaa::(1255,)
vaba=struct.unpack('>II',vab)#vaba::(1255,23)

进阶使用

pack_into(fmt,buffer,offset,*args)

fmt参数和pack是一样的，buffer参数是可写的缓存区，offset是写入位置的偏移量，*args是需要写入的数据。这个有什么用呢，我们想想这样两个情况，我们有两个类型已经打包好，我们想在这两个已经打包好的数据后面再添加一个数据打包；或者我们要打包的数据很多，我们不可能在pack中把所有需要打包的数据都通过参数传递给pack，那你的pack函数可能得写成千上完个参数了。这时候我们就可以用到这个函数了。

要使用它必须要一个可以写入的缓存区，我们可以导入一个字符缓存区包，然后创建一个固定大小的缓存区（以字节为单位）：

importstruct
fromctypesimportcreate_string_buffer

#创建一个9字节大小的缓存区，初始化默认全部为\x00
buf=create_string_buffer(9)#buf.raw:'\x00\x00\x00\x00\x00\x00\x00\x00\x00'

#冲缓存区buf的第0个字节开始打包两个4字节无符号整型数据1和2
struct.pack_into(">II",buf,0,1,2)#buf.raw:'\x00\x00\x00\x01\x00\x00\x00\x02\x00'
#然后我们想再打包一个布尔型数据到buf中就可以改变以下偏移量
struct.pack_into(">?",buf,8,True)#buf.raw:'\x00\x00\x00\x01\x00\x00\x00\x02\x01'

unpack_from(fmt,buffer,offset)和calcsize(fmt)结合解包数据

calcsize用于计算格式字符串所对应的结果的长度，如：struct.calcsize(‘II')，返回8。因为两个无符号整型所占用的长度是8个字节。unpack_from(fmt,buffer,offset)用于从buffer缓存区中使用fmt格式从offset偏移量处开始解包fmt里对应数量的数据。

importstruct
fromctypesimportcreate_string_buffer

buf=create_string_buffer(9)
struct.pack_into(">II",buf,0,1,2)
struct.pack_into(">?",buf,8,True)
#记录位置
pos=0
#从buf缓存区中以大端方式从偏移位置pos处解包两个无符号整型数据返回，注意
#返回值如果只写一个则返回一个元组，否则你解包几个数据就要写几个返回值。
val=struct.unpack_from('>II',buf,pos)#val::(1,2)
val_a,val_b=struct.unpack_from('>II',buf,pos)#val_a:1val_b:2

#重置解包位置
pos+=struct.calcsize('>II')#pos:8
val_c,=struct.unpack_from('>?',buf,pos)#val_c:True

示例

这个示例是基于mnist手写数字识别的，我们刚开始有60000张手写数字的图片（.bmp格式的），我们通过下述代码将60000张图片转换成字节型数据，bytes.py代码如下：

importstruct
importos
importnumpyasnp
fromctypesimportcreate_string_buffer
importcv2

#创建一个60000*784*1+3*4字节大小的缓存区，初始化默认全部为\x00
buffer=create_string_buffer(60000*784*1+3*4)
defwriteBytesData():
index=0
BMP_NUM=0
BMP_WIDTH=28
BMP_HEIGHT=28

#先保留三个无符号整型的缓存区
index+=struct.calcsize('>III')
path='data/bmp'
ifnotos.path.exists(path):
print('Nothisdir!')
return
list=os.listdir(path)
forline_bmpinlist:
bmp_path=os.path.join(path,line_bmp)
ifos.path.isdir(bmp_path):
print('Thisisnota.bmp')
else:
BMP_NUM+=1
print(BMP_NUM)
buf=cv2.imread(bmp_path,cv2.IMREAD_GRAYSCALE)
buf=np.reshape(buf,[784])
forposinrange(buf.__len__()):
struct.pack_into('>B',buffer,index,buf[pos])
index+=struct.calcsize('>B')

#将保留缓存区的内容填上
struct.pack_into('>III',buffer,0,BMP_NUM,BMP_WIDTH,BMP_HEIGHT)
withopen('data/bytes/bytes.bytes','wb')asfp:
fp.write(buffer)


defreadFromBytes():
index=0
images=[]
withopen('data/bytes/bytes.bytes','rb')asfp:
buffer=fp.read()
#解包前三个无符号整型
bmp_num,bmp_width,bmp_height=struct.unpack_from('>III',buffer,index)

#重定位偏移量
index+=struct.calcsize('>III')
forposinrange(bmp_num):
img=struct.unpack_from('>784B',buffer,index)
index+=struct.calcsize('>784B')
#修改为原来的图片形状
img=np.array(img,dtype=np.uint8)
img=np.reshape(img,[bmp_height,bmp_width])
#显示图片
cv2.imshow('bmp',img)
#按任意键继续
cv2.waitKey(0)
images.append(img)
returnimages


writeBytesData()
readFromBytes()

在写入bytes文件的时候有点慢，由于有60000张图片每张要写28*28个字节，其中目录结构如下，需要图片的可以去我的下载区下载mnist图片数据集：

bytes.py
data
bmp
1.bmp
2.bmp
...
60000.bmp
bytes

以上这篇python中struct模块之字节型数据的处理方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

python中struct模块之字节型数据的处理方法

热门推荐

随机推荐