Python中可用于将PDF转换为文本的模块有哪些?
您可以使用PDFMiner包将PDF转换为文本。
示例
您可以通过以下方式使用它:
import sys
from cStringIO import StringIO
from pdfminer.pdfpage importPDFPage
from pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter
from pdfminer.layout importLAParams
from pdfminer.converter importXMLConverter, HTMLConverter, TextConverter
def pdfparser(data):
fp = file(data, 'rb')
resource_manager = PDFResourceManager() retstr = StringIO() codec = 'utf-8'
laparams = LAParams() device = TextConverter(resource_manager,retstr, codec=codec, laparams=laparams)
interpreter =PDFPageInterpreter(resource_manager, device)
# Process each page contained in thedocument.
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()
print data
pdfparser('filename.pdf')这将获取一个pdf文件,并使用PDFPageInterpreter类中的process_page函数逐页提取文本。
PDFMiner的替代品具有更容易使用的API来提取文本。pyPDF可以正常工作(假设您使用的是格式正确的PDF)。如果只需要文本(带空格),则可以执行以下操作:
import pyPdf
pdf = pyPdf.PdfFileReader(open('filename.pdf',"rb"))
for page in pdf.pages:
print page.extractText()热门推荐
10 八一幼儿祝福语大全简短
11 公司乔迁食堂祝福语简短
12 婚礼结束聚餐祝福语简短
13 儿媳买车妈妈祝福语简短
14 毕业送礼老师祝福语简短
15 同事辞职正常祝福语简短
16 恭贺新婚文案祝福语简短
17 金店立秋祝福语简短英文
18 婆婆高寿祝福语大全简短