使用Python编写爬虫的基本模块及框架使用指南

2024-03-22 18:07:04 437

基本模块
python爬虫，webspider。爬取网站获取网页数据，并进行分析提取。

基本模块使用的是urllib，urllib2，re，等模块

基本用法，例子：

（1）进行基本GET请求，获取网页html

#!coding=utf-8
importurllib
importurllib2

url='http://www.baidu.com/'
#获取请求
request=urllib2.Request(url)
try:
#根据request，得到返回response
response=urllib2.urlopen(request)
excepturllib2.HTTPError,e:
ifhasattr(e,'reason'):
printe.reason
#读取response的body
html=response.read()
#读取response的headers
headers=response.info()

（2）表单提交

#!coding=utf-8
importurllib2
importurllib

post_url=''

post_data=urllib.urlencode({
'username':'username',
'password':'password',
})

post_headers={
'User-Agent':'Mozilla/5.0(X11;Ubuntu;Linuxi686;rv:31.0)Gecko/20100101Firefox/31.0',
}

request=urllib2.Request(
url=post_url,
data=post_data,
headers=post_headers,
)

response=urllib2.urlopen(request)

html=response.read()

(3)

#!coding=utf-8

importurllib2
importre

page_num=1
url='http://tieba.baidu.com/p/3238280985?see_lz=1&pn='+str(page_num)
myPage=urllib2.urlopen(url).read().decode('gbk')

myRe=re.compile(r'class="d_post_contentj_d_post_content">(.*?)</div>',re.DOTALL)
items=myRe.findall(myPage)

f=open('baidu.txt','a+')

importsys
reload(sys)
sys.setdefaultencoding('utf-8')

i=0
texts=[]
foriteminitems:
i+=1
printi
text=item.replace('<br>','')
text.replace('\n','').replace('','')+'\n'
printtext
f.write(text)

f.close()

(4)

#coding:utf-8
'''
模拟登陆163邮箱并下载邮件内容

'''
importurllib
importurllib2
importcookielib
importre
importtime
importjson

classEmail163:
header={'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6'}
user=''
cookie=None
sid=None
mailBaseUrl='http://twebmail.mail.163.com'

def__init__(self):
self.cookie=cookielib.CookieJar()
cookiePro=urllib2.HTTPCookieProcessor(self.cookie)
urllib2.install_opener(urllib2.build_opener(cookiePro))

deflogin(self,user,pwd):
'''
登录
'''
postdata=urllib.urlencode({
'username':user,
'password':pwd,
'type':1
})
#注意版本不同，登录URL也不同
req=urllib2.Request(
url='https://ssl.mail.163.com/entry/coremail/fcg/ntesdoor2?funcid=loginone&language=-1&passtype=1&iframe=1&product=mail163&from=web&df=email163&race=-2_45_-2_hz&module=&uid='+user+'&style=10&net=t&skinid=null',
data=postdata,
headers=self.header,
)
res=str(urllib2.urlopen(req).read())
#printres
patt=re.compile('sid=([^"]+)',re.I)
patt=patt.search(res)

uname=user.split('@')[0]
self.user=user
ifpatt:
self.sid=patt.group(1).strip()
#printself.sid
print'%sLoginSuccessful.....'%(uname)
else:
print'%sLoginfailed....'%(uname)


defgetInBox(self):
'''
获取邮箱列表
'''
print'\nGetmaillists.....\n'
sid=self.sid
url=self.mailBaseUrl+'/jy3/list/list.do?sid='+sid+'&fid=1&fr=folder'
res=urllib2.urlopen(url).read()
#获取邮件列表
mailList=[]
patt=re.compile('<div\s+class="tdLikeIbx_Td_From"[^>]+>.*?href="([^"]+)"[^>]+>(.*?)<\/a>.*?<div\s+class="tdLikeIbx_Td_Subject"[^>]+>.*?href="[^>]+>(.*?)<\/a>',re.I|re.S)
patt=patt.findall(res)
ifpatt==None:
returnmailList

foriinpatt:
line={
'from':i[1].decode('utf8'),
'url':self.mailBaseUrl+i[0],
'subject':i[2].decode('utf8')
}
mailList.append(line)

returnmailList


defgetMailMsg(self,url):
'''
下载邮件内容
'''
content=''
print'\nDownload.....%s\n'%(url)
res=urllib2.urlopen(url).read()

patt=re.compile('contentURL:"([^"]+)"',re.I)
patt=patt.search(res)
ifpatt==None:
returncontent
url='%s%s'%(self.mailBaseUrl,patt.group(1))
time.sleep(1)
res=urllib2.urlopen(url).read()
Djson=json.JSONDecoder(encoding='utf8')
jsonRes=Djson.decode(res)
if'resultVar'injsonRes:
content=Djson.decode(res)['resultVar']
time.sleep(3)
returncontent


'''
Demon
'''
#初始化
mail163=Email163()
#登录
mail163.login('lpe234@163.com','944898186')
time.sleep(2)

#获取收件箱
elist=mail163.getInBox()

#获取邮件内容
foriinelist:
print'主题：%s来自：%s内容：\n%s'%(i['subject'].encode('utf8'),i['from'].encode('utf8'),mail163.getMailMsg(i['url']).encode('utf8'))

（５）需要登陆的情况

#1cookie的处理

importurllib2,cookielib
cookie_support=urllib2.HTTPCookieProcessor(cookielib.CookieJar())
opener=urllib2.build_opener(cookie_support,urllib2.HTTPHandler)
urllib2.install_opener(opener)
content=urllib2.urlopen('http://XXXX').read()

#2用代理和cookie

opener=urllib2.build_opener(proxy_support,cookie_support,urllib2.HTTPHandler)

#3表单的处理

importurllib
postdata=urllib.urlencode({
'username':'XXXXX',
'password':'XXXXX',
'continueURI':'http://www.verycd.com/',
'fk':fk,
'login_submit':'登录'
})

req=urllib2.Request(
url='http://secure.verycd.com/signin/*/http://www.verycd.com/',
data=postdata
)
result=urllib2.urlopen(req).read()

#4伪装成浏览器访问

headers={
'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6'
}
req=urllib2.Request(
url='http://secure.verycd.com/signin/*/http://www.verycd.com/',
data=postdata,
headers=headers
)

#5反”反盗链”

headers={
'Referer':'http://www.cnbeta.com/articles'
}

（６）多线程

fromthreadingimportThread
fromQueueimportQueue
fromtimeimportsleep
#q是任务队列
#NUM是并发线程总数
#JOBS是有多少任务
q=Queue()
NUM=2
JOBS=10
#具体的处理函数，负责处理单个任务
defdo_somthing_using(arguments):
printarguments
#这个是工作进程，负责不断从队列取数据并处理
defworking():
whileTrue:
arguments=q.get()
do_somthing_using(arguments)
sleep(1)
q.task_done()
#forkNUM个线程等待队列
foriinrange(NUM):
t=Thread(target=working)
t.setDaemon(True)
t.start()
#把JOBS排入队列
foriinrange(JOBS):
q.put(i)
#等待所有JOBS完成
q.join()

scrapy框架
Scrapy框架，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

刚开始学习这个框架。不太好评论。只是感觉这个框架有些Java的感觉，需要太多的其他模块的支持。

（一）创建scrapy项目

#使用scrapystartprojectscrapy_test
├──scrapy_test
│├──scrapy.cfg
│└──scrapy_test
│├──__init__.py
│├──items.py
│├──pipelines.py
│├──settings.py
│└──spiders
│├──__init__.py
#进行创建scrapy项目

（二）说明

scrapy.cfg:项目配置文件
items.py:需要提取的数据结构定义文件
pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等
settings.py:爬虫配置文件
spiders:放置spider的目录
（三）依赖包

依赖包比较麻烦。

#python-dev包的安装
apt-getinstallpython-dev

#twisted,w3lib,six,queuelib,cssselect，libxslt

pipinstallw3lib
pipinstalltwisted
pipinstalllxml
apt-getinstalllibxml2-devlibxslt-dev
apt-getinstallpython-lxml
pipinstallcssselect
pipinstallpyOpenSSL
sudopipinstallservice_identity

#安装好之后，便可使用scrapystartprojecttest进行创建项目

（四）抓取实例。
（1）创建scrapy项目

dizzy@dizzy-pc:~/Python/spit$scrapystartprojectitzhaopin
NewScrapyproject'itzhaopin'createdin:
/home/dizzy/Python/spit/itzhaopin

Youcanstartyourfirstspiderwith:
cditzhaopin
scrapygenspiderexampleexample.com
dizzy@dizzy-pc:~/Python/spit$

dizzy@dizzy-pc:~/Python/spit$cditzhaopin
dizzy@dizzy-pc:~/Python/spit/itzhaopin$tree
.
├──itzhaopin
│├──__init__.py
│├──items.py
│├──pipelines.py
│├──settings.py
│└──spiders
│└──__init__.py
└──scrapy.cfg

#scrapy.cfg:项http://my.oschina.net/lpe234/admin/new-blog目配置文件
#items.py:需要提取的数据结构定义文件
#pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等
#settings.py:爬虫配置文件
#spiders:放置spider的目录

（2）定义要抓取的数据结构items.py

fromscrapy.itemimportItem,Field
#定义我们要抓取的数据
classTencentItem(Item):
name=Field()#职位名称
catalog=Field()#职位类别
workLocation=Field()#工作地点
recruitNumber=Field()#招聘人数
detailLink=Field()#职位详情链接
publishTime=Field()#发布时间

(3)实现Spider类

Spider是继承自scarpy.contrib.spiders.CrawlSpider的Python类，有3个必须定义的成员。
name:名称，spider的标识。
start_urls: 一个url列表，spider从这些网页开始抓取
parse():一个方法。当start_urls里面的网页抓取下来之后需要调用这个方法来解析网页内容，同时需要返回下一个需要抓取的网页，或者返回items列表。

在spiders目录下面新建一个spider，tencent_spider.py：

#coding=utf-8

fromscrapy.spiderimportBaseSpider


classDmozSpider(BaseSpider):
name='dmoz'
allowed_domains=['dmoz.org']
start_urls=[
'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/',
'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/'
]

defparse(self,response):
filename=response.url.split('/')[-2]
open(filename,'wb').write(response.info)

这个简单一些。使用scrapycrawldmoz#即可运行spider

使用Python编写爬虫的基本模块及框架使用指南

热门推荐

随机推荐