Python urllib2运行过程原理解析
1.urlopen函数
urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]])
注:
url表示目标网页地址,可以是字符串,也可以是请求对象Request
req=urllib2.Request(url,data,headers)response=urllib2.urlopen(req,timeout=3)
data表示post方式提交给目标服务器的参数
data=urllib.urlencode(data)
importurllib,urllib2 action_url="http://www.xxxxxx.com/post"#用于测试post的网址,返回提交的数据 values={'name':"alice",'age':20} data=urllib.urlencode(values)#对表单数据编码 rqst=urllib2.Request(action_url,data) response=urllib2.urlopen(rqst)#模拟提交表单数据到url并获得响应
timeout表示超时时间设置。
返回值
- response.read()返回页面内容
- response.info()返回网页信息
- response.geturl()返回连接地址
这个函数可以像urllib.urlopen()那样以url做参数。也能以Request实例为参数,即用一个Request对象(下文构造方法)来映射你提出的HTTP请求,在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,这个Request对象中可以设置传输数据、headers等。通过调用urlopen并传入Request对象,将返回一个file-like对象。urllib2还提供了接口来处理一般情况,例如:基础验证,cookies,代理和其他,它们通过handlers和openers的对象实现。
2、Request函数
urllib2.Request(url[,data][,headers][,origin_req_host][,unverifiable])
用于构造Request对象,可以传递data数据,添加请求头(headers)等,构造好后作为urllib2.urlopen()的参数。
注:
url表示目标网页地址,可以是字符串,也可以是请求对象Request
data表示post方式提交给目标服务器的参数
headers表示用户标识,是一个字典类型的数据,有些不允许脚本的抓取,所以需要用户代理,像火狐浏览器的代理就是类似:
Mozilla/5.0(X11;U;Linuxi686)Gecko/20071127Firefox/2.0.0.11
浏览器的标准UA格式为:浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识版本信息,headers默认是
Python-urllib/2.6
origin_req_host表示请求方的主机域名或者ip地址。
headers={'User-Agent':'Mozilla/5.0(X11;U;Linuxi686)Gecko/20071127Firefox/2.0.0.11'}
importurllib importurllib2 url='http://www.weibo.cn/' user_agent='Mozilla/4.0(compatible;MSIE5.5;WindowsNT)' h={'User-Agent':user_agent} req=urllib2.Request(url,headers=h) response=urllib2.urlopen(req) printresponse.read()
3、build_opener()
build_opener([handler1[handler2,...]])
urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。
参数handler是Handler实例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
build_opener()返回的对象具有open()方法,与urlopen()函数的功能相同。
如果要修改http报头,可以用:
importurllib2 opener=urllib2.build_opener() opener.addheaders=[('User-agent','Mozilla/5.0')] opener.open('http://www.example.com/')
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。