Python实现抓取网页并且解析的实例
本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。
主要功能代码如下:
#!/usr/bin/python
#coding=utf-8
importsys
importre
importurllib2
fromurllibimporturlencode
fromurllibimportquote
importtime
maxline=2000
wenda=re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu=re.compile("<ahref=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1=open("baidupage.txt","w")
f2=open("wendapage.txt","w")
forlineinsys.stdin:
ifmaxline==0:
break
query=line.strip();
time.sleep(1);
recall_url="http://www.so.com/s?&q="+query;
response=urllib2.urlopen(recall_url);
html=response.read();
f1.write(html)
m=wenda.search(html);
ifm:
ifm.group(1)=="110":
printquery+"\twenda\t0";
else:
printquery+"\twenda\t1";
else:
printquery+"\twenda\t0";
recall_url="http://www.baidu.com/s?wd="+query+"&ie=utf-8";
response=urllib2.urlopen(recall_url);
html=response.read();
f2.write(html)
m=baidu.search(html);
ifm:
printquery+"\tbaidu\t1";
else:
printquery+"\tbaidu\t0";
maxline=maxline-1;
f1.close()
f2.close()
希望本文所述对大家Python程序设计的学习有所帮助。
热门推荐
10 对患者生日祝福语简短
11 结婚祝福语简短装备
12 周岁祝福语学生文案简短
13 订婚领证祝福语简短精辟
14 导师获奖祝福语大全简短
15 新婚购房祝福语简短精辟
16 牛年祝福语简短的爱人
17 送芒果的祝福语简短
18 送给学长毕业祝福语简短