微客导航 » 文章资讯 » python3使用urllib模块制作网络爬虫

python3使用urllib模块制作网络爬虫

2024-03-20 03:33:05 395

urllib

urllib模块是python3的URL处理包

其中：

1、urllib.request主要是打开和阅读urls

个人平时主要用的1：

打开对应的URL：urllib.request.open(url)

用urllib.request.build_opener([handler,...])，来伪装成对应的浏览器

importurllib
#要伪装成的浏览器(我这个是用的chrome)
headers=('User-Agent','Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/46.0.2490.86Safari/537.36')
url='http://hotels.ctrip.com/'
opener=urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data=opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
print(data)

2、urllib.parse主要是用来解析url

主要方法：

urllib.parse.urlparse(urlstring)

功能：将对应的URL解析成六部分，并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)

importurllib
o=urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

对应的结果：

ParseResult(scheme='http',netloc='www.cwi.nl:80',path='/%7Eguido/Python.html',params='',query='',fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、构建一个新的url——urllib.parse.urljoin(base,url)

参数：base:基本的URL链接

url:另一个url

fromurllib.parseimporturljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html','FAQ.html')
print(a)

结果：http://www.cwi.nl/%7Eguido/FAQ.html

这个函数在爬虫的时候应该方便多了，我之前用的是比较笨的方法直接字符串拼接

3、异常处理urllib.error

用try-except来捕捉异常

主要的错误方式就两种URLError和HTTPError

因为HTTPError是URLError的子类，所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲，找到父亲，不一定知道儿子。

try:
data=urllib.request.urlopen(url)
print(data.read().decode('utf-8'))
excepturllib.error.HTTPErrorase:
print(e.code)
excepturllib.error.URLErrorase:
print(e.reason)

结果：[WinError10060]由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

如果捕获到了HTTPError，则输出code，不会再处理URLError异常。如果发生的不是HTTPError，则会去捕获URLError异常，输出错误原因

返回顶部
3162201930
czq8825@qq.com

python3使用urllib模块制作网络爬虫

热门推荐

随机推荐