微客导航 » 文章资讯 » python读取word文档的方法

python读取word文档的方法

2024-04-01 00:14:04 312

本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下：

首先下载安装win32com

fromwin32comimportclientaswc
word=wc.Dispatch('Word.Application')
doc=word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text',2)
doc.Close()
word.Quit()

这种方式产生的text文档，不能用python用普通的r方式读取，为了让python可以用r方式读取，应当写成

doc.SaveAs('c:/test',4)

注意：系统执行完成后，会自动产生文件后缀txt（虽然没有指明后缀）。
在xp系统下面，应当，

open(r'c:\text','r')
wdFormatDocument=0
wdFormatDocument97=0
wdFormatDocumentDefault=16
wdFormatDOSText=4
wdFormatDOSTextLineBreaks=5
wdFormatEncodedText=7
wdFormatFilteredHTML=10
wdFormatFlatXML=19
wdFormatFlatXMLMacroEnabled=20
wdFormatFlatXMLTemplate=21
wdFormatFlatXMLTemplateMacroEnabled=22
wdFormatHTML=8
wdFormatPDF=17
wdFormatRTF=6
wdFormatTemplate=1
wdFormatTemplate97=1
wdFormatText=2
wdFormatTextLineBreaks=3
wdFormatUnicodeText=7
wdFormatWebArchive=9
wdFormatXML=11
wdFormatXMLDocument=12
wdFormatXMLDocumentMacroEnabled=13
wdFormatXMLTemplate=14
wdFormatXMLTemplateMacroEnabled=15
wdFormatXPS=18

照着字面意思应该能对应到相应的文件格式，如果你是office2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用officeAPI，比如PHP.

fromwin32comimportclientaswc
word=wc.Dispatch('Word.Application')
doc=word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text',4)
doc.Close()

importre
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\（\s*[A-D]\s*\）|\（\xa1*[A-D]\xa1*\）',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\（\s*[A-D]\s*\）|\（\xa1*[A-D]\xa1*\）','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
fori,ainenumerate(result):
m=re.search('[A-D]',a)
answer.write(str(i+1)+''+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要()，容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

返回顶部
3162201930
czq8825@qq.com

python读取word文档的方法

热门推荐

随机推荐