Python爬虫实现网页信息抓取功能示例【URL与正则模块】

2024-02-23 14:07:03 375

本文实例讲述了Python爬虫实现网页信息抓取功能。分享给大家供大家参考，具体如下：

首先实现关于网页解析、读取等操作我们要用到以下几个模块

importurllib
importurllib2
importre

我们可以尝试一下用readline方法读某个网站，比如说百度

deftest():
f=urllib.urlopen('http://www.baidu.com')
whileTrue:
firstLine=f.readline()
printfirstLine

下面我们说一下如何实现网页信息的抓取，比如说百度贴吧

我们大概要做几件事情：

首先获取网页及其代码，这里我们要实现多页，即其网址会改变，我们传递一个页数

defgetPage(self,pageNum):
try:
url=self.baseURL+self.seeLZ+'&pn='+str(pageNum)
#创建request对象
request=urllib2.Request(url)
response=urllib2.urlopen(request)
#print'URL:'+url
returnresponse.read()
exceptException,e:
printe

之后我们要获取小说内容，这里咱们分为标题和正文。标题每页都有，所以我们获取一次就好了。

我们可以点击某网站，按f12查看他的标题标签是如何构造的，比如说百度贴吧是…………</p> <p>那我们就匹配reg=re.compile(r'<title>(.*?)。')来抓取这个信息</p> <p>标题抓取完我们要开始抓去正文了，我们知道正文会有很多段，所以我们要循环的去抓取整个items，这里我们注意</p> <p>对于文本的读写操作，一定要放在循环外。同时加入一些去除超链接、<br>等机制</p> <p>最后，我们在主函数调用即可</p> <p>完整代码：</p> <pre> #-*-coding:utf-8-*- importsys reload(sys) sys.setdefaultencoding('utf8') #爬虫之网页信息抓取 #需要的函数方法：urllib,re,urllib2 importurllib importurllib2 importre #测试函数->读取 #deftest(): #f=urllib.urlopen('http://www.baidu.com') #whileTrue: #firstLine=f.readline() #printfirstLine #针对于百度贴吧获取前十页楼主小说文本内容 classBDTB: def__init__(self,baseUrl,seeLZ): #成员变量 self.baseURL=baseUrl self.seeLZ='?see_lz='+str(seeLZ) #获取该页帖子的代码 defgetPage(self,pageNum): try: url=self.baseURL+self.seeLZ+'&pn='+str(pageNum) #创建request对象 request=urllib2.Request(url) response=urllib2.urlopen(request) #print'URL:'+url returnresponse.read() exceptException,e: printe #匹配标题 defTitle(self): html=self.getPage(1) #compile提高正则匹配效率 reg=re.compile(r'<title>(.*?)。') #返回list列表 items=re.findall(reg,html) f=open('output.txt','w+') item=('').join(items) f.write('\t\t\t\t\t'+item.encode('gbk')) f.close() #匹配正文 defText(self,pageNum): html=self.getPage(pageNum) #compile提高正则匹配效率 reg=re.compile(r'"d_post_contentj_d_post_content">(.*?)</div>') #返回list列表 items=re.findall(reg,html) f=open('output.txt','a+') #[1:]切片，第一个元素不需要，去掉。 foriinitems[1:]: #超链接去除 removeAddr=re.compile('<a.*?>|</a>') #用""替换 i=re.sub(removeAddr,"",i) #<br>去除 i=i.replace('<br>','') f.write('\n\n'+i.encode('gbk')) f.close() #调用入口 baseURL='http://tieba.baidu.com/p/4638659116' bdtb=BDTB(baseURL,1) print'爬虫正在启动....'.encode('gbk') #多页 bdtb.Title() print'抓取标题完毕！'.encode('gbk') foriinrange(1,11): print'正在抓取第%02d页'.encode('gbk')%i bdtb.Text(i) print'抓取正文完毕!'.encode('gbk') </pre> <p><strong>PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：</strong></p> <p><strong>JavaScript正则表达式在线测试工具：<br/> </strong>http://tools.jb51.net/regex/javascript</p> <p><strong>正则表达式在线生成工具：<br/> </strong>http://tools.jb51.net/regex/create_reg</p> <p>更多关于Python相关内容可查看本站专题：《Python正则表达式用法总结》、《Python数据结构与算法教程》、《PythonSocket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》</p> <p>希望本文所述对大家Python程序设计有所帮助。</p></section> </div> </div>  <nav> <span class="meta-nav"><a href="/article/236588.html" title="AngularJS使用ng-class动态增减class样式的方法示例" se_prerender_url="complete">上一篇<br>AngularJS使用ng-class动态增减class样式的方法示例</a></span> <span class="meta-nav"><a href="/article/236586.html" title="Linux的wget命令详解" se_prerender_url="complete">下一篇<br>Linux的wget命令详解</a></span> <div class="clear"></div> </nav>  <div class="article-recommend"> <h3>热门推荐</h3> <div class="title"><span class="s-1">1</span> <a href="/article/370989.html" title="虎年新年专属祝福语简短">虎年新年专属祝福语简短</a></div> <div class="title"><span class="s-2">2</span> <a href="/article/370818.html" title="恋爱很久的祝福语简短">恋爱很久的祝福语简短</a></div> <div class="title"><span class="s-3">3</span> <a href="/article/370826.html" title="单位搬迁新楼祝福语简短">单位搬迁新楼祝福语简短</a></div> <div class="title"><span class="s-4">4</span> <a href="/article/370721.html" title="新年祝福语给婆婆简短">新年祝福语给婆婆简短</a></div> <div class="title"><span class="s-5">5</span> <a href="/article/370809.html" title="简短媳妇的生日祝福语">简短媳妇的生日祝福语</a></div> <div class="title"><span class="s-6">6</span> <a href="/article/370984.html" title="相恋人回去祝福语简短">相恋人回去祝福语简短</a></div> <div class="title"><span class="s-7">7</span> <a href="/article/370848.html" title="新人给朋友祝福语简短">新人给朋友祝福语简短</a></div> <div class="title"><span class="s-8">8</span> <a href="/article/370770.html" title="结婚给姐妹祝福语简短">结婚给姐妹祝福语简短</a></div> <div class="title"><span class="s-9">9</span> <a href="/article/370963.html" title="结婚对白誓言简短祝福语">结婚对白誓言简短祝福语</a></div> <div class="title"><span class="s-10">10</span> <a href="/article/370964.html" title="八一幼儿祝福语大全简短">八一幼儿祝福语大全简短</a></div> <div class="title"><span class="s-11">11</span> <a href="/article/370761.html" title="公司乔迁食堂祝福语简短">公司乔迁食堂祝福语简短</a></div> <div class="title"><span class="s-12">12</span> <a href="/article/370950.html" title="婚礼结束聚餐祝福语简短">婚礼结束聚餐祝福语简短</a></div> <div class="title"><span class="s-13">13</span> <a href="/article/370948.html" title="儿媳买车妈妈祝福语简短">儿媳买车妈妈祝福语简短</a></div> <div class="title"><span class="s-14">14</span> <a href="/article/370829.html" title="毕业送礼老师祝福语简短">毕业送礼老师祝福语简短</a></div> <div class="title"><span class="s-15">15</span> <a href="/article/370843.html" title="同事辞职正常祝福语简短">同事辞职正常祝福语简短</a></div> <div class="title"><span class="s-16">16</span> <a href="/article/371001.html" title="恭贺新婚文案祝福语简短">恭贺新婚文案祝福语简短</a></div> <div class="title"><span class="s-17">17</span> <a href="/article/370949.html" title="金店立秋祝福语简短英文">金店立秋祝福语简短英文</a></div> <div class="title"><span class="s-18">18</span> <a href="/article/370894.html" title="婆婆高寿祝福语大全简短">婆婆高寿祝福语大全简短</a></div> </div> <div class="add-gg">  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-4387516810452807" data-ad-slot="9131157744" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div>  <div id="sidebar"> <li class="sidebar-box"> <h3 class="widget-title">随机推荐</h3> <ul> <li> <a href="/article/371021.html" title="新年稳重的祝福语简短">新年稳重的祝福语简短</a> </li> <li> <a href="/article/371020.html" title="新婚过年祝福语大全简短">新婚过年祝福语大全简短</a> </li> <li> <a href="/article/371019.html" title="法考面试祝福语简短">法考面试祝福语简短</a> </li> <li> <a href="/article/371018.html" title="爸爸爱你祝福语大全简短">爸爸爱你祝福语大全简短</a> </li> <li> <a href="/article/371017.html" title="老哥出门祝福语简短语">老哥出门祝福语简短语</a> </li> <li> <a href="/article/371016.html" title="虎年台词祝福语大全简短">虎年台词祝福语大全简短</a> </li> <li> <a href="/article/371015.html" title="新年的鸡汤祝福语简短">新年的鸡汤祝福语简短</a> </li> <li> <a href="/article/371014.html" title="虎年开新车祝福语简短">虎年开新车祝福语简短</a> </li> <li> <a href="/article/371012.html" title="新春进门祝福语大全简短">新春进门祝福语大全简短</a> </li> <li> <a href="/article/371011.html" title="年前幸福祝福语大全简短">年前幸福祝福语大全简短</a> </li> <li> <a href="/article/371010.html" title="学生开心成语祝福语简短">学生开心成语祝福语简短</a> </li> <li> <a href="/article/371009.html" title="新郎表白成语祝福语简短">新郎表白成语祝福语简短</a> </li> <li> <a href="/article/371008.html" title="周年庆典祝福语致辞简短">周年庆典祝福语致辞简短</a> </li> <li> <a href="/article/371007.html" title="动心的生日祝福语简短">动心的生日祝福语简短</a> </li> <li> <a href="/article/371006.html" title="春天变冷祝福语简短">春天变冷祝福语简短</a> </li> <li> <a href="/article/371005.html" title="喜得新房文案祝福语简短">喜得新房文案祝福语简短</a> </li> </ul> </li> <li class="sidebar-box">  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-4387516810452807" data-ad-slot="8604338277" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </li> </div> </div> </div> <ul class="suspend"> <li class="back-top" onclick="backTop()"> <i class="fa fa-chevron-up"></i> <span class="more">返回顶部</span> </li> <li> <a href="http://wpa.qq.com/msgrd?v=3&uin=3162201930&site=qq&menu=yes"> <i class="fa fa-qq"></i> <span class="more">3162201930</span> </a> </li> <li> <a href="mailto:czq8825@qq.com"> <i class="fa fa-envelope"></i> <span class="more">czq8825@qq.com</span> </a> </li>  </ul> <footer class="footer clearfix"> <p>免责声明：网站资源来源于网络，如有侵权，请及时联系删除。</p> <p>Copyright © 2026 <a href="/">微客导航网</a>. All Rights Reserved.</p> <p> <a href="https://beian.miit.gov.cn">蜀ICP备2021004611号-4</a> <a href="/sitemap.html">网站地图</a> <script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script> <script>LA.init({id:"KzuJqBC7sskDeRpE",ck:"KzuJqBC7sskDeRpE"})</script> </p> </footer> <script src="/Public/Home/js/main.js"></script> <script type="text/javascript" src="/Public/Home/js/z_stat.js"></script> </body> </html>