Python urllib库如何添加headers过程解析
对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。
方法一:借助build_opener和addheaders完成
importurllib.request url="http://www.meizitu.com" #注意:在urllib中headers是元组 headers=("User-Agent","Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132Safari/537.36QIHU360SE") opener=urllib.request.build_opener() opener.addheaders=[headers] data=opener.open(url) print(data.read())
注意:此处的headers要写为一个元组类型才可以。写为字典类型的话会报错!
方法二、创建一个Request实例对象
#案例1 importurllib.request url="http://www.meizitu.com" #注意:在urllib中这种的headers是需要是字典的 headers={"User-Agent":"Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132Safari/537.36QIHU360SE"} req=urllib.request.Request(url=url,headers=headers) file=urllib.request.urlopen(req) #出现有些解码错误的话,加上“ignore”就可以啦 print(file.read().decode("utf-8",'ignore'))
注意:此处的headers要写为一个字典类型才可以。
创建一个Reques对象,把需要的headers,url,proxy都放进去,或者在post请求中还可以把编码过后的data值放进去,再用urlopen打开,就比较方便了。
另外,这种方法还可以用add_headers()来添加headers,代码如下:
importurllib.request try: url="http://www.meizitu.com" req=urllib.request.Request(url=url) req.add_header("User-Agent","Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132Safari/537.36QIHU360SE") file=urllib.request.urlopen(req,timeout=10.1) print(file.read().decode("utf-8",'ignore')) exceptExceptionase: print("时间超时",str(e))
总结:通过以上两种方法,可以完成请求头的相关参数设置,但是得注意headers是用字典类型来传入还是元组类型。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。