python采集百度百科的方法
本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:
#!/usr/bin/python
#-*-coding:utf-8-*-
#encoding=utf-8
#Filename:get_baike.py
importurllib2,re
importsys
defgetHtml(url,time=10):
response=urllib2.urlopen(url,timeout=time)
html=response.read()
response.close()
returnhtml
defclearBlank(html):
iflen(html)==0:return''
html=re.sub('\r|\n|\t','',html)
whilehtml.find("")!=-1orhtml.find(' ')!=-1:
html=html.replace(' ','').replace('','')
returnhtml
if__name__=='__main__':
html=getHtml('http://baike.baidu.com/view/4617031.htm',10)
html=html.decode('gb2312','replace').encode('utf-8')#转码
title_reg=r'<h1class="title"id="[\d]+">(.*?)</h1>'
content_reg=r'<divclass="card-summary-content">(.*?)</p>'
title=re.compile(title_reg).findall(html)
content=re.compile(content_reg).findall(html)
title[0]=re.sub(r'<[^>]*?>','',title[0])
content[0]=re.sub(r'<[^>]*?>','',content[0])
printtitle[0]
print'#######################'
printcontent[0]
希望本文所述对大家的Python程序设计有所帮助。
热门推荐
10 香港老妈结婚祝福语简短
11 毕业立体贺卡祝福语简短
12 简短新年年会祝福语
13 评论小品祝福语大全简短
14 恭喜师兄结婚祝福语简短
15 员工集体辞职祝福语简短
16 高中新生祝福语 简短
17 装修祝福语男生搞笑简短
18 生日开业蛋糕祝福语简短