微客导航 » 文章资讯 » Python2.7读取PDF文件的方法示例

Python2.7读取PDF文件的方法示例

2024-02-06 05:00:03 422

本文实例讲述了Python2.7读取PDF文件的方法。分享给大家供大家参考，具体如下：

这篇文章示例代码采用的Python版本是2.7，需要下载的插件是PDFMiner，下载地址是http://www.unixuser.org/~euske/python/pdfminer/，地址里有安装方法，我就不再细说了，需要说明的是Python2只能使用PDFMiner，Python3不能使用，Python3可以使用PDFMiner3K，下载地址为https://pypi.python.org/pypi/pdfminer3k/。两种插件使用上大体相似，这里我以Python2为例，使用PDFMiner插件。代码如下：

#!/usr/bin/envpython
#-*-coding:utf-8-*-
frompdfminer.pdfparserimportPDFParser
frompdfminer.pdfdocumentimportPDFDocument
frompdfminer.pdfpageimportPDFPage
frompdfminer.pdfpageimportPDFTextExtractionNotAllowed
frompdfminer.pdfinterpimportPDFResourceManager
frompdfminer.pdfinterpimportPDFPageInterpreter
frompdfminer.pdfdeviceimportPDFDevice
frompdfminer.layoutimportLAParams
frompdfminer.converterimportPDFPageAggregator
#获取文档对象，你把algorithm.pdf换成你自己的文件名即可。
fp=open("algorithm.pdf","rb")
#创建一个与文档相关联的解释器
parser=PDFParser(fp)
#PDF文档对象
doc=PDFDocument(parser)
#链接解释器和文档对象
parser.set_document(doc)
#doc.set_paeser(parser)
#初始化文档
#doc.initialize("")
#创建PDF资源管理器
resource=PDFResourceManager()
#参数分析器
laparam=LAParams()
#创建一个聚合器
device=PDFPageAggregator(resource,laparams=laparam)
#创建PDF页面解释器
interpreter=PDFPageInterpreter(resource,device)
#使用文档对象得到页面集合
forpageinPDFPage.create_pages(doc):
#使用页面解释器来读取
interpreter.process_page(page)
#使用聚合器来获取内容
layout=device.get_result()
foroutinlayout:
ifhasattr(out,"get_text"):
printout.get_text()

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python文件与目录操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

返回顶部
3162201930
czq8825@qq.com

Python2.7读取PDF文件的方法示例

热门推荐

随机推荐