python爬虫的一个常见简单js反爬详解
前言
我们在写爬虫是遇到最多的应该就是js反爬了,今天分享一个比较常见的js反爬,这个我已经在多个网站上见到过了。
我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,今天说的是第二种情况。
目标网站
列表页url: http://www.hnrexian.com/archives/category/jk。
正常网站我们请求url会返回给我们网页数据内容等,看看这个网站返回给我们的是什么呢?
我们把相应中返回的js代码格式化一下,方便查看。
functionstringToHex(str){ varval=""; for(vari=0;i
说好的返回网页数据源码呢,这是什么东西!
js破解思路
js破解提供两种思路,一种是直接用Python来重写js内容,实现模拟js的操作,这种一般用于比较简单的js;还有一种是用Python第三方库来解析js,比如pyv8,execjs这些(个人觉得execjs比较好用),这种一般用于比较复杂的js解析。
分析返回的js分成两个部分。第一部分,定义了stringToHex和YunSuoAutoJump两个函数。第二部分,50毫秒后执行YunSuoAutoJump这个函数。
YunSuoAutoJump这个函数功能是添加一个cookie并去请求一个构造的url,可以从document.cookie和self.location这里看出。stringToHex这个函数的共能其实就是字符串的转换,具体js内容可以参考这个网址https://www.runoob.com/js/js-tutorial.html自行查找。
python重写代码
那么接下来就是用python来重写js啦,重写后代码如下。
defstringToHex(string): length=len(string) hex_string=str() foriinxrange(length): hex_string+=hex(ord(string[i]))[2:] returnhex_string defget_cookie(url): hex_string=stringToHex(url) cookie={"srcurl":hex_string,"path":"/"} returncookie
这是那两个函数,一个用于字符串转换,一个用于获取cookie。
最后拿到结果
接下来模拟浏览器操作,其中是分为三部分。第一次,我们请求目标url,然后返回给我们js内容;第二次,js添加1个cookie并请求了1个构造出的url;第三次请求原目标url,得到最终的数据。
这里我们用requests.Session来保持连接,模拟上面三部的内容。
url="http://www.hnrexian.com/archives/category/jk" s=requests.Session() r=s.get(url) url_2=re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0] screen_date="1920,1080" url_2=url_2+stringToHex(screen_date) url_2=urljoin(url,url_2) cookie=get_cookie(url) s.cookies.update(cookie) r2=s.get(url_2) url3=re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0] r3=s.get(url3) r3.encoding="gbk" printr3.text
到这里我们就完美得到最后想要的内容了。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。