python采集百度百科的方法
本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:
#!/usr/bin/python
#-*-coding:utf-8-*-
#encoding=utf-8
#Filename:get_baike.py
importurllib2,re
importsys
defgetHtml(url,time=10):
response=urllib2.urlopen(url,timeout=time)
html=response.read()
response.close()
returnhtml
defclearBlank(html):
iflen(html)==0:return''
html=re.sub('\r|\n|\t','',html)
whilehtml.find("")!=-1orhtml.find(' ')!=-1:
html=html.replace(' ','').replace('','')
returnhtml
if__name__=='__main__':
html=getHtml('http://baike.baidu.com/view/4617031.htm',10)
html=html.decode('gb2312','replace').encode('utf-8')#转码
title_reg=r'<h1class="title"id="[\d]+">(.*?)</h1>'
content_reg=r'<divclass="card-summary-content">(.*?)</p>'
title=re.compile(title_reg).findall(html)
content=re.compile(content_reg).findall(html)
title[0]=re.sub(r'<[^>]*?>','',title[0])
content[0]=re.sub(r'<[^>]*?>','',content[0])
printtitle[0]
print'#######################'
printcontent[0]
希望本文所述对大家的Python程序设计有所帮助。
热门推荐
10 八一幼儿祝福语大全简短
11 公司乔迁食堂祝福语简短
12 婚礼结束聚餐祝福语简短
13 儿媳买车妈妈祝福语简短
14 毕业送礼老师祝福语简短
15 同事辞职正常祝福语简短
16 恭贺新婚文案祝福语简短
17 金店立秋祝福语简短英文
18 婆婆高寿祝福语大全简短