微客导航 » 文章资讯 » 零基础写python爬虫之抓取百度贴吧代码分享

零基础写python爬虫之抓取百度贴吧代码分享

2024-04-06 23:48:05 281

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！


#-*-coding:utf-8-*-

#---------------------------------------

#  程序：百度贴吧爬虫

#  版本：0.1

#  作者：why

#  日期：2013-05-14

#  语言：Python2.7

#  操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。

#  功能：下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

importstring,urllib2

#定义百度函数

defbaidu_tieba(url,begin_page,end_page):  

   foriinrange(begin_page,end_page+1):

       sName=string.zfill(i,5)+'.html'#自动填充成六位的文件名

       print'正在下载第'+str(i)+'个网页，并将其存储为'+sName+'......'

       f=open(sName,'w+')

       m=urllib2.urlopen(url+str(i)).read()

       f.write(m)

       f.close()

#--------在这里输入参数------------------

#这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl='http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin=1

#iPostEnd=10

bdurl=str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n')) begin_page=int(raw_input(u'请输入开始的页数：\n')) end_page=int(raw_input(u'请输入终点的页数：\n')) #--------在这里输入参数------------------ #调用 baidu_tieba(bdurl,begin_page,end_page)

返回顶部
3162201930
czq8825@qq.com

零基础写python爬虫之抓取百度贴吧代码分享

热门推荐

随机推荐