Python实现抓取网页并且解析的实例
本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。
主要功能代码如下:
#!/usr/bin/python
#coding=utf-8
importsys
importre
importurllib2
fromurllibimporturlencode
fromurllibimportquote
importtime
maxline=2000
wenda=re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu=re.compile("<ahref=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1=open("baidupage.txt","w")
f2=open("wendapage.txt","w")
forlineinsys.stdin:
ifmaxline==0:
break
query=line.strip();
time.sleep(1);
recall_url="http://www.so.com/s?&q="+query;
response=urllib2.urlopen(recall_url);
html=response.read();
f1.write(html)
m=wenda.search(html);
ifm:
ifm.group(1)=="110":
printquery+"\twenda\t0";
else:
printquery+"\twenda\t1";
else:
printquery+"\twenda\t0";
recall_url="http://www.baidu.com/s?wd="+query+"&ie=utf-8";
response=urllib2.urlopen(recall_url);
html=response.read();
f2.write(html)
m=baidu.search(html);
ifm:
printquery+"\tbaidu\t1";
else:
printquery+"\tbaidu\t0";
maxline=maxline-1;
f1.close()
f2.close()
希望本文所述对大家Python程序设计的学习有所帮助。
热门推荐
10 八一幼儿祝福语大全简短
11 公司乔迁食堂祝福语简短
12 婚礼结束聚餐祝福语简短
13 儿媳买车妈妈祝福语简短
14 毕业送礼老师祝福语简短
15 同事辞职正常祝福语简短
16 恭贺新婚文案祝福语简短
17 金店立秋祝福语简短英文
18 婆婆高寿祝福语大全简短