Python中可用于将PDF转换为文本的模块有哪些？

2024-04-24 05:51:05 361

示例

您可以通过以下方式使用它：

import sys from cStringIO import StringIO from pdfminer.pdfpage importPDFPage from pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter from pdfminer.layout importLAParams from pdfminer.converter importXMLConverter, HTMLConverter, TextConverter def pdfparser(data): fp = file(data, 'rb') resource_manager = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(resource_manager,retstr, codec=codec, laparams=laparams) interpreter =PDFPageInterpreter(resource_manager, device) # Process each page contained in thedocument. for page in PDFPage.get_pages(fp): interpreter.process_page(page) data = retstr.getvalue() print data pdfparser('filename.pdf')

这将获取一个pdf文件，并使用PDFPageInterpreter类中的process_page函数逐页提取文本。

PDFMiner的替代品具有更容易使用的API来提取文本。pyPDF可以正常工作（假设您使用的是格式正确的PDF）。如果只需要文本（带空格），则可以执行以下操作：

import pyPdf pdf = pyPdf.PdfFileReader(open('filename.pdf',"rb")) for page in pdf.pages: print page.extractText()

Python中可用于将PDF转换为文本的模块有哪些？

示例

热门推荐

随机推荐