PyPDF2读取PDF文件内容保存到本地TXT实例
我就废话不多说了,大家还是直接看代码吧!
fromPyPDF2.pdfimportPdfFileReader importpandasaspd defPdf_to_txt(pdf): foriinrange(0,pdf.getNumPages()): title=[] lin1,lin2,lin3,lin4,lin5,lin6,lin7,lin8=[],[],[],[],[],[],[],[] extractedText=pdf.getPage(i).extractText() text=extractedText.split('\n') num=0 forlinintext: ifnum==0: title.append(lin) elifnum==1: lin1.append(lin) elifnum==2: lin2.append(lin) elifnum==3: lin3.append(lin) elifnum==4: lin4.append(lin) elifnum==5: lin5.append(lin) elifnum==6: lin6.append(lin) elifnum==7: lin7.append(lin) elifnum==8: lin8.append(lin) num=0 num+=1 Lin_num=len(lin8) data={'Lin1':lin1[:Lin_num],'Lin2':lin2[:Lin_num],'Lin3':lin3[:Lin_num],'Lin4':lin4[:Lin_num],'Lin5':lin5[:Lin_num],'Lin6':lin6[:Lin_num],'Lin7':lin7[:Lin_num],'Lin8':lin8[:Lin_num]} df=pd.DataFrame(data,columns=['Lin1','Lin2','Lin3','Lin4','Lin5','Lin6','Lin7','Lin8']) file_name=title[0]+'_page'+str((i+1)) df.to_csv('tool/pdf解析/%s.txt'%file_name,index=False,sep='\t') if__name__=='__main__': filename='E:/SVN/采集框架V2/analyse_code/政策/pdf/con026465.pdf' pdf=PdfFileReader(open(filename,"rb")) Pdf_to_txt(pdf)
补充知识:使用PyPDF2库对pdf文件进行指定页面删除操作
平台:win10家庭版,python3.7,PyPDF2
思维过程:
方法一:将pdf文件通过拆分为单页,放入一个文件夹,再删除其中不要的文件,最后再把剩余的文件进行合并为一个pdf文件
第一步:使用原文件路径创建新文件夹,用于存放拆分后的单页文件
defnewdir(self,path): self.new=os.path.splitext(path)[0] ifnotos.path.isdir(self.new):#使用os.path.isdir判断文件夹是否存在, os.mkdir(self.new)
第二步:生成单页文件,并存放到新建的文件夹
defpdfsplt(self,path): ifos.path.isfile(path): file_1=open(path,"rb") file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示 #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名 forpageinrange(0,file_reader.getNumPages()): file_write=PyPDF2.PdfFileWriter() pageobj=file_reader.getPage(page) file_write.addPage(pageobj) output=str(self.new)+"\\"+str(int(page+1))+".pdf" withopen(output,"wb")asoutput_pdf: file_write.write(output_pdf) file_1.close() else: print("文件不存在!") time.sleep(3) exit()
第三步:删除文件夹中不要的文件
defpdfremove(self,number): forpaginnumber: filename=str(self.new)+"\\"+str(pag)+".pdf" ifos.path.isfile(filename): os.unlink(filename) else: print("请确认要删除的页码%s是否正确!!"%pag)
第四步:把剩余文件合并为一个pdf文件
defpdfmerge(self): file_list=[int(os.path.splitext(x)[0])forxinos.listdir(self.new)]#读取新建文件夹下的所有文件并提取文件名转为数字 file_write=PyPDF2.PdfFileWriter()#先创建一个新的pdf对象 forpageinsorted(file_list): pathstr=str(self.new)+"\\"+str(page)+".pdf" file_1=open(pathstr,"rb") file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示 pageobj=file_reader.getPage(0) file_write.addPage(pageobj) output=str(self.new)+"_new.pdf" withopen(output,"wb")asoutput_pdf: file_write.write(output_pdf) print("第%s页完成"%page) file_1.close()
第五步:删除其中的缓存文件夹
defrmdir(self): ifos.path.isdir(self.new): shutil.rmtree(self.new)
方法一的完整代码:
importPyPDF2 importos,time,shutil,sys importthreading classmypdf(object): def__init__(self,path,number): self.newdir(path) self.pdfsplt(path) self.pdfremove(number) self.pdfmerge() self.rmdir() pass #用于创建一个独立的文件夹,存放缓存数据 defnewdir(self,path): self.new=os.path.splitext(path)[0] ifnotos.path.isdir(self.new):#使用os.path.isdir判断文件夹是否存在, os.mkdir(self.new) #将每一页生成独立文件,存放到缓存文件夹 defpdfsplt(self,path): ifos.path.isfile(path): file_1=open(path,"rb") file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示 #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名 forpageinrange(0,file_reader.getNumPages()): file_write=PyPDF2.PdfFileWriter() pageobj=file_reader.getPage(page) file_write.addPage(pageobj) output=str(self.new)+"\\"+str(int(page+1))+".pdf" withopen(output,"wb")asoutput_pdf: file_write.write(output_pdf) file_1.close() else: print("文件不存在!") time.sleep(3) exit() #删除缓存文件夹中的不要的页 defpdfremove(self,number): forpaginnumber: filename=str(self.new)+"\\"+str(pag)+".pdf" ifos.path.isfile(filename): os.unlink(filename) else: print("请确认要删除的页码%s是否正确!!"%pag) #将缓存文件夹中的剩余文件合进行合并 defpdfmerge(self): file_list=[int(os.path.splitext(x)[0])forxinos.listdir(self.new)]#读取新建文件夹下的所有文件并提取文件名转为数字 file_write=PyPDF2.PdfFileWriter()#先创建一个新的pdf对象 forpageinsorted(file_list): pathstr=str(self.new)+"\\"+str(page)+".pdf" file_1=open(pathstr,"rb") file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示 pageobj=file_reader.getPage(0) file_write.addPage(pageobj) output=str(self.new)+"_new.pdf" withopen(output,"wb")asoutput_pdf: file_write.write(output_pdf) print("第%s页完成"%page) file_1.close() defrmdir(self): ifos.path.isdir(self.new): shutil.rmtree(self.new) if__name__=="__main__": #通过第一个参数获取待处理的文件,第二个参数到以后为删除的页码 path=sys.argv[1] number=sys.argv[2:] mypdf=mypdf(path,number) deff(path,number): mypdf(path,number) threading.Thread(target=f,args=[path,number])
方法二:在写入新文件时使用if判断进行筛选出不要的页面
想法一、将读取与写入同时处理。使用if判断筛选不要的页面
defpdfsplt(self,path,number): print(number,type(number)) ifos.path.isfile(path): file_1=open(path,"rb") file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示 file_write=PyPDF2.PdfFileWriter() #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名 forpageinrange(0,file_reader.getNumPages()): ifpagenotinnumber: pageobj=file_reader.getPage(page) file_write.addPage(pageobj) output=str(self.new)+"_new.pdf" withopen(output,"wb")asoutput_pdf: file_write.write(output_pdf) file_1.close() else: print("文件不存在!") time.sleep(3) exit()
想法二、将数据先全部放入内存,最后在写入,来提高速度:
defpdfsplt(self,path,number): print(number,type(number)) ifos.path.isfile(path): file_1=open(path,"rb") file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示 file_write=PyPDF2.PdfFileWriter() #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名 forpageinrange(0,file_reader.getNumPages()): ifpagenotinnumber: pageobj=file_reader.getPage(page) file_write.addPage(pageobj) output=str(self.new)+"_new.pdf" withopen(output,"wb")asoutput_pdf:#将内容全部放入内存,最后写入,提高处理速度 file_write.write(output_pdf) file_1.close() else: print("文件不存在!") time.sleep(3) exit()
方法二的完整代码:
importPyPDF2 importos,time,shutil,sys importthreading classmypdf(object): def__init__(self,path,number): self.new=os.path.splitext(path)[0]#获取文件的路径 self.pdfsplt(path,number) pass #循环每一页读入内存,最后写入文件 defpdfsplt(self,path,number): print(number,type(number)) ifos.path.isfile(path): file_1=open(path,"rb") file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示 file_write=PyPDF2.PdfFileWriter() #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名 forpageinrange(0,file_reader.getNumPages()): ifpagenotinnumber: pageobj=file_reader.getPage(page) file_write.addPage(pageobj) output=str(self.new)+"_new.pdf" withopen(output,"wb")asoutput_pdf:#将内容全部放入内存,最后写入,提高处理速度 file_write.write(output_pdf) file_1.close() else: print("文件不存在!") time.sleep(3) exit() if__name__=="__main__": #通过第一个参数获取待处理的文件,第二个参数到以后为删除的页码 path=sys.argv[1] number=sys.argv[2:] number=list(map(int,number)) mypdf=mypdf(path,number) deff(path,number): mypdf(path,number) threading.Thread(target=f,args=[path,number])
两种方法的比较:
方法一
方法二中的第一种想法
方法二中的第二种想法
运行速度
慢
较慢
快
代码量
65行
34行
34行
缺点:
方法一在处理扫描的pdf文件时,运行速度太慢,不能实现范围性的删除。
方法二不能实现范围性的删除
以上这篇PyPDF2读取PDF文件内容保存到本地TXT实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。