微客导航 » 文章资讯 » Python爬虫headers处理及网络超时问题解决方案

Python爬虫headers处理及网络超时问题解决方案

2023-07-22 20:17:03 434

1、请求headers处理

我们有时请求服务器时，无论get或post请求，会出现403错误，这是因为服务器拒绝了你的访问，这时我们可以通过模拟浏览器的头部信息进行访问，这样就可以解决反爬设置的问题。

importrequests
#创建需要爬取网页的地址
url='https://www.baidu.com/'
#创建头部信息
headers={'User-Agent':'OW64;rv:59.0)Gecko/20100101Firefox/59.0'}
#发送网络请求
response=requests.get(url,headers=headers)
#以字节流形式打印网页源码
print(response.content)

结果：

b'\n\n\n\n\n

2、网络超时问题

在访问一个网页时，如果该网页长时间未响应，系统就会判断该网页超时，而无法打开网页。下面通过代码来模拟一个网络超时的现象。

importrequests
#循环发送请求50次
forainrange(1,50):
#捕获异常
try:
#设置超时为0.5秒
response=requests.get('https://www.baidu.com/',timeout=0.5)
#打印状态码
print(response.status_code)
#捕获异常
exceptExceptionase:
#打印异常信息
print('异常'+str(e))

结果：

以上代码中，模拟进行了50次循环请求，设置超时时间为0.5秒，在0.5秒内服务器未作出相应视为超时，程序会将超时信息打印在控制台中。

说起网络异常信息，requests模块同样提供了三种常见的网络异常类，示例代码如下：

importrequests
#导入requests.exceptions模块中的三种异常类
fromrequests.exceptionsimportReadTimeout,HTTPError,RequestException
#循环发送请求50次
forainrange(1,50):
#捕获异常
try:
#设置超时为0.5秒
response=requests.get('https://www.baidu.com/',timeout=0.5)
#打印状态码
print(response.status_code)
#超时异常
exceptReadTimeout:
print('timeout')
#HTTP异常
exceptHTTPError:
print('httperror')
#请求异常
exceptRequestException:
print('reqerror')

结果：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

返回顶部
3162201930
czq8825@qq.com

Python爬虫headers处理及网络超时问题解决方案

热门推荐

随机推荐