使用Python编写爬虫的基本模块及框架使用指南
基本模块
python爬虫,webspider。爬取网站获取网页数据,并进行分析提取。
基本模块使用的是urllib,urllib2,re,等模块
基本用法,例子:
(1)进行基本GET请求,获取网页html
#!coding=utf-8 importurllib importurllib2 url='http://www.baidu.com/' #获取请求 request=urllib2.Request(url) try: #根据request,得到返回response response=urllib2.urlopen(request) excepturllib2.HTTPError,e: ifhasattr(e,'reason'): printe.reason #读取response的body html=response.read() #读取response的headers headers=response.info()
(2)表单提交
#!coding=utf-8 importurllib2 importurllib post_url='' post_data=urllib.urlencode({ 'username':'username', 'password':'password', }) post_headers={ 'User-Agent':'Mozilla/5.0(X11;Ubuntu;Linuxi686;rv:31.0)Gecko/20100101Firefox/31.0', } request=urllib2.Request( url=post_url, data=post_data, headers=post_headers, ) response=urllib2.urlopen(request) html=response.read()
(3)
#!coding=utf-8 importurllib2 importre page_num=1 url='http://tieba.baidu.com/p/3238280985?see_lz=1&pn='+str(page_num) myPage=urllib2.urlopen(url).read().decode('gbk') myRe=re.compile(r'class="d_post_contentj_d_post_content">(.*?)</div>',re.DOTALL) items=myRe.findall(myPage) f=open('baidu.txt','a+') importsys reload(sys) sys.setdefaultencoding('utf-8') i=0 texts=[] foriteminitems: i+=1 printi text=item.replace('<br>','') text.replace('\n','').replace('','')+'\n' printtext f.write(text) f.close()
(4)
#coding:utf-8 ''' 模拟登陆163邮箱并下载邮件内容 ''' importurllib importurllib2 importcookielib importre importtime importjson classEmail163: header={'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6'} user='' cookie=None sid=None mailBaseUrl='http://twebmail.mail.163.com' def__init__(self): self.cookie=cookielib.CookieJar() cookiePro=urllib2.HTTPCookieProcessor(self.cookie) urllib2.install_opener(urllib2.build_opener(cookiePro)) deflogin(self,user,pwd): ''' 登录 ''' postdata=urllib.urlencode({ 'username':user, 'password':pwd, 'type':1 }) #注意版本不同,登录URL也不同 req=urllib2.Request( url='https://ssl.mail.163.com/entry/coremail/fcg/ntesdoor2?funcid=loginone&language=-1&passtype=1&iframe=1&product=mail163&from=web&df=email163&race=-2_45_-2_hz&module=&uid='+user+'&style=10&net=t&skinid=null', data=postdata, headers=self.header, ) res=str(urllib2.urlopen(req).read()) #printres patt=re.compile('sid=([^"]+)',re.I) patt=patt.search(res) uname=user.split('@')[0] self.user=user ifpatt: self.sid=patt.group(1).strip() #printself.sid print'%sLoginSuccessful.....'%(uname) else: print'%sLoginfailed....'%(uname) defgetInBox(self): ''' 获取邮箱列表 ''' print'\nGetmaillists.....\n' sid=self.sid url=self.mailBaseUrl+'/jy3/list/list.do?sid='+sid+'&fid=1&fr=folder' res=urllib2.urlopen(url).read() #获取邮件列表 mailList=[] patt=re.compile('<div\s+class="tdLikeIbx_Td_From"[^>]+>.*?href="([^"]+)"[^>]+>(.*?)<\/a>.*?<div\s+class="tdLikeIbx_Td_Subject"[^>]+>.*?href="[^>]+>(.*?)<\/a>',re.I|re.S) patt=patt.findall(res) ifpatt==None: returnmailList foriinpatt: line={ 'from':i[1].decode('utf8'), 'url':self.mailBaseUrl+i[0], 'subject':i[2].decode('utf8') } mailList.append(line) returnmailList defgetMailMsg(self,url): ''' 下载邮件内容 ''' content='' print'\nDownload.....%s\n'%(url) res=urllib2.urlopen(url).read() patt=re.compile('contentURL:"([^"]+)"',re.I) patt=patt.search(res) ifpatt==None: returncontent url='%s%s'%(self.mailBaseUrl,patt.group(1)) time.sleep(1) res=urllib2.urlopen(url).read() Djson=json.JSONDecoder(encoding='utf8') jsonRes=Djson.decode(res) if'resultVar'injsonRes: content=Djson.decode(res)['resultVar'] time.sleep(3) returncontent ''' Demon ''' #初始化 mail163=Email163() #登录 mail163.login('lpe234@163.com','944898186') time.sleep(2) #获取收件箱 elist=mail163.getInBox() #获取邮件内容 foriinelist: print'主题:%s来自:%s内容:\n%s'%(i['subject'].encode('utf8'),i['from'].encode('utf8'),mail163.getMailMsg(i['url']).encode('utf8'))
(5)需要登陆的情况
#1cookie的处理 importurllib2,cookielib cookie_support=urllib2.HTTPCookieProcessor(cookielib.CookieJar()) opener=urllib2.build_opener(cookie_support,urllib2.HTTPHandler) urllib2.install_opener(opener) content=urllib2.urlopen('http://XXXX').read() #2用代理和cookie opener=urllib2.build_opener(proxy_support,cookie_support,urllib2.HTTPHandler) #3表单的处理 importurllib postdata=urllib.urlencode({ 'username':'XXXXX', 'password':'XXXXX', 'continueURI':'http://www.verycd.com/', 'fk':fk, 'login_submit':'登录' }) req=urllib2.Request( url='http://secure.verycd.com/signin/*/http://www.verycd.com/', data=postdata ) result=urllib2.urlopen(req).read() #4伪装成浏览器访问 headers={ 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6' } req=urllib2.Request( url='http://secure.verycd.com/signin/*/http://www.verycd.com/', data=postdata, headers=headers ) #5反”反盗链” headers={ 'Referer':'http://www.cnbeta.com/articles' }
(6)多线程
fromthreadingimportThread fromQueueimportQueue fromtimeimportsleep #q是任务队列 #NUM是并发线程总数 #JOBS是有多少任务 q=Queue() NUM=2 JOBS=10 #具体的处理函数,负责处理单个任务 defdo_somthing_using(arguments): printarguments #这个是工作进程,负责不断从队列取数据并处理 defworking(): whileTrue: arguments=q.get() do_somthing_using(arguments) sleep(1) q.task_done() #forkNUM个线程等待队列 foriinrange(NUM): t=Thread(target=working) t.setDaemon(True) t.start() #把JOBS排入队列 foriinrange(JOBS): q.put(i) #等待所有JOBS完成 q.join()
scrapy框架
Scrapy框架,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
刚开始学习这个框架。不太好评论。只是感觉这个框架有些Java的感觉,需要太多的其他模块的支持。
(一)创建scrapy项目
#使用scrapystartprojectscrapy_test ├──scrapy_test │├──scrapy.cfg │└──scrapy_test │├──__init__.py │├──items.py │├──pipelines.py │├──settings.py │└──spiders │├──__init__.py #进行创建scrapy项目
(二)说明
scrapy.cfg:项目配置文件
items.py:需要提取的数据结构定义文件
pipelines.py:管道定义,用来对items里面提取的数据做进一步处理,如保存等
settings.py:爬虫配置文件
spiders:放置spider的目录
(三)依赖包
依赖包比较麻烦。
#python-dev包的安装 apt-getinstallpython-dev #twisted,w3lib,six,queuelib,cssselect,libxslt pipinstallw3lib pipinstalltwisted pipinstalllxml apt-getinstalllibxml2-devlibxslt-dev apt-getinstallpython-lxml pipinstallcssselect pipinstallpyOpenSSL sudopipinstallservice_identity #安装好之后,便可使用scrapystartprojecttest进行创建项目
(四)抓取实例。
(1)创建scrapy项目
dizzy@dizzy-pc:~/Python/spit$scrapystartprojectitzhaopin NewScrapyproject'itzhaopin'createdin: /home/dizzy/Python/spit/itzhaopin Youcanstartyourfirstspiderwith: cditzhaopin scrapygenspiderexampleexample.com dizzy@dizzy-pc:~/Python/spit$ dizzy@dizzy-pc:~/Python/spit$cditzhaopin dizzy@dizzy-pc:~/Python/spit/itzhaopin$tree . ├──itzhaopin │├──__init__.py │├──items.py │├──pipelines.py │├──settings.py │└──spiders │└──__init__.py └──scrapy.cfg #scrapy.cfg:项http://my.oschina.net/lpe234/admin/new-blog目配置文件 #items.py:需要提取的数据结构定义文件 #pipelines.py:管道定义,用来对items里面提取的数据做进一步处理,如保存等 #settings.py:爬虫配置文件 #spiders:放置spider的目录
(2)定义要抓取的数据结构items.py
fromscrapy.itemimportItem,Field #定义我们要抓取的数据 classTencentItem(Item): name=Field()#职位名称 catalog=Field()#职位类别 workLocation=Field()#工作地点 recruitNumber=Field()#招聘人数 detailLink=Field()#职位详情链接 publishTime=Field()#发布时间
(3)实现Spider类
- Spider是继承自scarpy.contrib.spiders.CrawlSpider的Python类,有3个必须定义的成员。
- name:名称,spider的标识。
- start_urls: 一个url列表,spider从这些网页开始抓取
- parse():一个方法。当start_urls里面的网页抓取下来之后需要调用这个方法来解析网页内容,同时需要返回下一个需要抓取的网页,或者返回items列表。
在spiders目录下面新建一个spider,tencent_spider.py:
#coding=utf-8 fromscrapy.spiderimportBaseSpider classDmozSpider(BaseSpider): name='dmoz' allowed_domains=['dmoz.org'] start_urls=[ 'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/', 'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/' ] defparse(self,response): filename=response.url.split('/')[-2] open(filename,'wb').write(response.info)
这个简单一些。使用scrapycrawldmoz#即可运行spider