python中struct模块之字节型数据的处理方法
简介
这个模块处理python中常见类型数据和Pythonbytes之间转换。这可用于处理存储在文件或网络连接中的bytes数据以及其他来源。在python中没有专门处理字节的数据类型,建立字节型数据也比较麻烦,我们知道的bytes()函数也只能对无符号整型做处理,并且数据如下(没错,数字为多少就有多少个\x00,我们要是用这种方式来存储大量数据,结果可想而知):
va=bytes(1)#va:'\x00' vb=bytes(2)#vb:'\x00\x00' vc=bytes(5)#vc:'\x00\x00\x00\x00\x00'
但在python中str类型中既可以用字符串表示也可以以字节方式表示,所以你定义一个字节型的字符串常量,python是能处理它的:
va='\x26'#va:'&'
struct处理
字节顺序
一个数据有多个字节表示的时候,字节的顺序不同也就决定了值,在struct中有以下几种字节顺序:
字符 | 字节顺序 | 尺寸 | 对齐方式 |
---|---|---|---|
@ | 本机 | 本机 | 本机 |
= | 本机 | 标准 | 无 |
< | 小端 | 标准 | 无 |
> | 大端 | 标准 | 无 |
! | 网络 | 标准 | 无 |
对于字节顺序,只有大端和小端两种方式,只是比如你用@和=代表你用本机的字节顺序,!代表你使用网络的字节顺序。你不指定字节顺序则默认的是@。
本地字节顺序是大端或小端,取决于主机系统。例如,Intelx86和AMD64(x86-64)是小端的;摩托罗拉68000和PowerPCG5是大端;ARM和IntelItanium具有可切换的字节序(双字节序)。使用sys.byteorder来检查你的系统的字节顺序。
数据格式
struct支持的打包解包的数据格式如下,我们需要指定格式才能对应处理,其中对应尺寸已列出(以字节为单位):
字符 | C类型 | python类型 | 标准尺寸 |
---|---|---|---|
x | 填充字节 | 没有意义的值 | |
c | char | 长度为1的字节 | 1 |
b | signedchar | 整型 | 1 |
B | unsignedchar | 整型 | 1 |
? | _Bool | 布尔 | 1 |
h | short | 整型 | 2 |
H | unsignedshort | 整型 | 2 |
i | int | 整型 | 4 |
I | unsignedint | 整型 | 4 |
l | long | 整型 | 4 |
L | unsignedlong | 整型 | 4 |
q | longlong | 整型 | 8 |
Q | unsignedlonglong | 整型 | 8 |
n | ssize_t | 整型 | |
N | size_t | 整型 | |
e | 浮动 | 2 | |
f | float | 浮动 | 4 |
d | double | 浮动 | 8 |
s | char[] | 字节 | |
p | char[] | 字节 | |
P | void* | 整型 |
打包
通过struct的pack(fmt,*args)来实现对各种数据的打包(转换为对应字节数据),pack的需要传递的参数fmt就是数据的格式,包括了字节顺序、数据类型;后面的*args参数是需要打包的数据。
vaa=struct.pack('>I',1255)#vaa:'\x00\x00\x04\xe7'1*4=1个字节vab=struct.pack('>II',1255,23)#vab:'\x00\x00\x04\xe7\x00\x00\x00\x17'2*4=8个字节vac=struct.pack('>2I?',1255,23,True)#vac:'\x00\x00\x04\xe7\x00\x00\x00\x17\x01'2*4+1=9个字节
我们看上述三个使用例子(数据与数据之间没有填充,都是连续的,比如对于vac我们不知道它是由两个4字节无符号整型和一个布尔构成,我们就无法取得正确的值),看fmt参数:
‘>I'代表了以大端的字节顺序打包一个4字节无符号整型数据,所以后面只跟了一个无符号整型参数1255;
‘>II'代表了以大端的字节顺序打包两个4字节无符号整型数据,所以后面跟了两个个无符号整型参数1255和23;
‘>2I?'代表了以大端的字节顺序打包两个4字节无符号整型和一个布尔型数据,所以后面跟了两个个无符号整型参数1255、23和一个布尔值True。
注意'2I'和'II','4I'和'IIII','2?'和'??'是一样的效果。
解包
通过struct的unpack(fmt,string)来实现对字符串的解包,fmt和打包的是完全一样的,如下(返回的结果是一个元组):
vaa=struct.pack('>I',1255)#vaa:'\x00\x00\x04\xe7' vab=struct.pack('>II',1255,23)#vab:'\x00\x00\x04\xe7\x00\x00\x00\x17' vaaa=struct.unpack('>I',vaa)#vaaa::(1255,) vaba=struct.unpack('>II',vab)#vaba: :(1255,23)
进阶使用
pack_into(fmt,buffer,offset,*args)
fmt参数和pack是一样的,buffer参数是可写的缓存区,offset是写入位置的偏移量,*args是需要写入的数据。这个有什么用呢,我们想想这样两个情况,我们有两个类型已经打包好,我们想在这两个已经打包好的数据后面再添加一个数据打包;或者我们要打包的数据很多,我们不可能在pack中把所有需要打包的数据都通过参数传递给pack,那你的pack函数可能得写成千上完个参数了。这时候我们就可以用到这个函数了。
要使用它必须要一个可以写入的缓存区,我们可以导入一个字符缓存区包,然后创建一个固定大小的缓存区(以字节为单位):
importstruct fromctypesimportcreate_string_buffer #创建一个9字节大小的缓存区,初始化默认全部为\x00 buf=create_string_buffer(9)#buf.raw:'\x00\x00\x00\x00\x00\x00\x00\x00\x00' #冲缓存区buf的第0个字节开始打包两个4字节无符号整型数据1和2 struct.pack_into(">II",buf,0,1,2)#buf.raw:'\x00\x00\x00\x01\x00\x00\x00\x02\x00' #然后我们想再打包一个布尔型数据到buf中就可以改变以下偏移量 struct.pack_into(">?",buf,8,True)#buf.raw:'\x00\x00\x00\x01\x00\x00\x00\x02\x01'
unpack_from(fmt,buffer,offset)和calcsize(fmt)结合解包数据
calcsize用于计算格式字符串所对应的结果的长度,如:struct.calcsize(‘II'),返回8。因为两个无符号整型所占用的长度是8个字节。unpack_from(fmt,buffer,offset)用于从buffer缓存区中使用fmt格式从offset偏移量处开始解包fmt里对应数量的数据。
importstruct fromctypesimportcreate_string_buffer buf=create_string_buffer(9) struct.pack_into(">II",buf,0,1,2) struct.pack_into(">?",buf,8,True) #记录位置 pos=0 #从buf缓存区中以大端方式从偏移位置pos处解包两个无符号整型数据返回,注意 #返回值如果只写一个则返回一个元组,否则你解包几个数据就要写几个返回值。 val=struct.unpack_from('>II',buf,pos)#val::(1,2) val_a,val_b=struct.unpack_from('>II',buf,pos)#val_a:1val_b:2 #重置解包位置 pos+=struct.calcsize('>II')#pos:8 val_c,=struct.unpack_from('>?',buf,pos)#val_c:True
示例
这个示例是基于mnist手写数字识别的,我们刚开始有60000张手写数字的图片(.bmp格式的),我们通过下述代码将60000张图片转换成字节型数据,bytes.py代码如下:
importstruct importos importnumpyasnp fromctypesimportcreate_string_buffer importcv2 #创建一个60000*784*1+3*4字节大小的缓存区,初始化默认全部为\x00 buffer=create_string_buffer(60000*784*1+3*4) defwriteBytesData(): index=0 BMP_NUM=0 BMP_WIDTH=28 BMP_HEIGHT=28 #先保留三个无符号整型的缓存区 index+=struct.calcsize('>III') path='data/bmp' ifnotos.path.exists(path): print('Nothisdir!') return list=os.listdir(path) forline_bmpinlist: bmp_path=os.path.join(path,line_bmp) ifos.path.isdir(bmp_path): print('Thisisnota.bmp') else: BMP_NUM+=1 print(BMP_NUM) buf=cv2.imread(bmp_path,cv2.IMREAD_GRAYSCALE) buf=np.reshape(buf,[784]) forposinrange(buf.__len__()): struct.pack_into('>B',buffer,index,buf[pos]) index+=struct.calcsize('>B') #将保留缓存区的内容填上 struct.pack_into('>III',buffer,0,BMP_NUM,BMP_WIDTH,BMP_HEIGHT) withopen('data/bytes/bytes.bytes','wb')asfp: fp.write(buffer) defreadFromBytes(): index=0 images=[] withopen('data/bytes/bytes.bytes','rb')asfp: buffer=fp.read() #解包前三个无符号整型 bmp_num,bmp_width,bmp_height=struct.unpack_from('>III',buffer,index) #重定位偏移量 index+=struct.calcsize('>III') forposinrange(bmp_num): img=struct.unpack_from('>784B',buffer,index) index+=struct.calcsize('>784B') #修改为原来的图片形状 img=np.array(img,dtype=np.uint8) img=np.reshape(img,[bmp_height,bmp_width]) #显示图片 cv2.imshow('bmp',img) #按任意键继续 cv2.waitKey(0) images.append(img) returnimages writeBytesData() readFromBytes()
在写入bytes文件的时候有点慢,由于有60000张图片每张要写28*28个字节,其中目录结构如下,需要图片的可以去我的下载区下载mnist图片数据集:
bytes.py data bmp 1.bmp 2.bmp ... 60000.bmp bytes
以上这篇python中struct模块之字节型数据的处理方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。