强悍的Python读取大文件的解决方案
Python环境下文件的读取问题,请参见拙文Python基础之文件读取的讲解
这是一道著名的Python面试题,考察的问题是,Python读取大文件和一般规模的文件时的区别,也即哪些接口不适合读取大文件。
1.read()接口的问题
f=open(filename,'rb') f.read()
我们来读取1个nginx的日至文件,规模为3Gb大小。read()方法执行的操作,是一次性全部读入内存,显然会造成:
MemoryError
...
也即会发生内存溢出。
2.解决方案:转换接口
- (1)readlines():读取全部的行,构成一个list,实践表明还是会造成内存的问题;
forlineinf.reanlines(): ...
- (2)readline():每次读取一行,
whileTrue: line=f.readline() ifnotline: break
- (3)read(1024):重载,指定每次读取的长度
whileTrue: block=f.read(1024) ifnotblock: break
3.真正Pythonic的方法
真正Pythonci的方法,使用with结构:
withopen(filename,'rb')asf: forlineinf:
对可迭代对象f,进行迭代遍历:forlineinf,会自动地使用缓冲IO(bufferedIO)以及内存管理,而不必担心任何大文件的问题。
Thereshouldbeone–andpreferablyonlyone–obviouswaytodoit.
Reference
Howtoreadlargefile,linebylineinpython
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接