微客导航 » 文章资讯 » python爬虫解决验证码的思路及示例

python爬虫解决验证码的思路及示例

2023-08-18 07:41:04 376

如果直接从生成验证码的页面把验证码下载到本地后识别，再构造表单数据发送的话，会有一个验证码同步的问题，即请求了两次验证码，而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session：

mysession=requests.Session()
login_url='http://xxx.com'
checkcode_url='http://yyy.com'
html=mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode=mysession.get(checkcode_url,timeout=60*4)
withopen('checkcode.png','wb')asf:
f.write(checkcode.content)

#接下来balabala对图像操作，可以用python的相关库（识别率低，教务网的验证码都够呛），也可以用云速等第三方验证码识别网站提供的有偿服务（识别度较高）

#再接下来构造表单数据balabala

法2:

用cookie：

#绑定cookie
checkcode_url='http://yyy.com'
cookie=cookielib.CookieJar()
handler=urllib2.HTTPCookieProcessor(cookie)
opener=urllib2.build_opener(handler)

#先读取验证码的url
picture=opener.open(checkcode_url).read()

#balabala图像处理

#生成post数据
data=urllib.urlencode(postData)
#构造request请求
request=urllib2.Request(PostUrl,data,headers)
#利用之前存有cookie的opener登录页面
try:
response=opener.open(request)
result=response.read()
excepturllib2.HTTPError,e:
printe.code

法3:

selenium+手动构造cookie：该方法无需识别验证码，本人尚未尝试。

webdriver操作cookie的方法有：

get_cookies()获得所有cookie信息
get_cookie(name)返回特定name有cookie信息
add_cookie(cookie_dict)添加cookie，必须有name和value值
delete_cookie(name)删除特定(部分)的cookie信息
delete_all_cookies()删除所有cookie信息

....
#第一次访问xxx网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问xxx网站，将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

返回顶部
3162201930
czq8825@qq.com

python爬虫解决验证码的思路及示例

热门推荐

随机推荐