PHP采集类snoopy详细介绍(snoopy使用教程)
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。
Snoopy的一些特点:
抓取网页的内容fetch
抓取网页的文本内容(去除HTML标签)fetchtext
抓取网页的链接,表单fetchlinksfetchform
支持代理主机
支持基本的用户名/密码验证
支持设置user_agent,referer(来路),cookies和headercontent(头文件)
支持浏览器重定向,并能控制重定向深度
能把网页中的链接扩展成高质量的url(默认)
提交数据并且获取返回值
支持跟踪HTML框架
支持重定向的时候传递cookies
要求php4以上就可以了由于本身是php一个类无需扩支持服务器不支持curl时候的最好选择,
Snoopy类方法及示例:
fetch($URI)
这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在$this->results中。
如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入$this->results。
fetchtext($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。
fetchform($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。
fetchlinks($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
submit($URI,$formvars)
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。
submittext($URI,$formvars)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。
submitlinks($URI)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
Snoopy采集类属性:(默认值在括号里)
$host连接的主机
$port连接的端口
$proxy_host使用的代理主机,如果有的话
$proxy_port使用的代理主机端口,如果有的话
$agent用户代理伪装(Snoopyv0.1)
$referer来路信息,如果有的话
$cookiescookies如果有的话
$rawheaders其他的头信息,如果有的话
$maxredirs最大重定向次数,0=不允许(5)
$offsiteokwhetherornottoallowredirectsoff-site.(true)
$expandlinks是否将链接都补全为完整地址(true)
$user认证用户名,如果有的话
$pass认证用户名,如果有的话
$accepthttp接受类型(image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
$error哪里报错,如果有的话
$response_code从服务器返回的响应代码
$headers从服务器返回的头信息
$maxlength最长返回数据长度
$read_timeout读取操作超时(requiresPHP4Beta4+)设置为0为没有超时
$timed_out如果一次读取操作超时了,本属性返回true(requiresPHP4Beta4+)
$maxframes允许追踪的框架最大数量
$status抓取的http的状态
$temp_dir网页服务器能够写入的临时文件目录(/tmp)
$curl_pathcURLbinary的目录,如果没有cURLbinary就设置为false
下面是一个示例:
include"Snoopy.class.php"; $snoopy=newSnoopy; $snoopy->proxy_host="https://www.nhooo.com"; $snoopy->proxy_port="80"; $snoopy->agent="(compatible;MSIE4.01;MSN2.5;AOL4.0;Windows98)"; $snoopy->referer="https://www.nhooo.com"; $snoopy->cookies["SessionID"]=238472834723489l; $snoopy->cookies["favoriteColor"]="RED"; $snoopy->rawheaders["Pragma"]="no-cache"; $snoopy->maxredirs=2; $snoopy->offsiteok=false; $snoopy->expandlinks=false; $snoopy->user="joe"; $snoopy->pass="bloe"; if($snoopy->fetchtext("https://www.nhooo.com")) { echo"<PRE>".htmlspecialchars($snoopy->results)."</PRE>\n"; } else echo"errorfetchingdocument:".$snoopy->error."\n";
获取指定url内容
<?php $url="https://www.nhooo.com"; include("snoopy.php"); $snoopy=newSnoopy; $snoopy->fetch($url);//获取所有内容 echo$snoopy->results;//显示结果 //可选以下 $snoopy->fetchtext//获取文本内容(去掉html代码) $snoopy->fetchlinks//获取链接 $snoopy->fetchform //获取表单 ?>
表单提交
<?php $formvars["username"]="admin"; $formvars["pwd"]="admin"; $action="https://www.nhooo.com";//</a>表单提交地址 $snoopy->submit($action,$formvars);//$formvars为提交的数组 echo$snoopy->results;//获取表单提交后的返回的结果 //可选以下 $snoopy->submittext;//提交后只返回去除html的文本 $snoopy->submitlinks;//提交后只返回链接 ?>
既然已经提交的表单那就可以做很多事情接下来我们来伪装ip,伪装浏览器
伪装浏览器
<?php $formvars["username"]="lanfengye"; $formvars["pwd"]="lanfengye"; $action="https://www.nhooo.com"; include"snoopy.php"; $snoopy=newSnoopy; $snoopy->cookies["PHPSESSID"]='fc106b1918bd522cc863f36890e6fff7';//伪装sessionid $snoopy->agent="(compatible;MSIE4.01;MSN2.5;AOL4.0;Windows98)";//伪装浏览器 $snoopy->referer="https://www.nhooo.com";//伪装来源页地址http_referer $snoopy->rawheaders["Pragma"]="no-cache";//cache的http头信息 $snoopy->rawheaders["X_FORWARDED_FOR"]="127.0.0.101";//伪装ip $snoopy->submit($action,$formvars); echo$snoopy->results; ?>
原来我们可以伪装session伪装浏览器,伪装ip,haha可以做很多事情了。
例如带验证码,验证ip投票,可以不停的投。
ps:这里伪装ip,其实是伪装http头,所以一般的通过REMOTE_ADDR获取的ip是伪装不了,
反而那些通过http头来获取ip的(可以防止代理的那种)就可以自己来制造ip。
关于如何验证码,简单说下:
首先用普通的浏览器,查看页面,找到验证码所对应的sessionid,
同时记下sessionid和验证码值,
接下来就用snoopy去伪造。
原理:由于是同一个sessionid所以取得的验证码和第一次输入的是一样的。
有时我们可能需要伪造更多的东西,snoopy完全为我们想到了
<?php
$snoopy->proxy_host="https://www.nhooo.com";
$snoopy->proxy_port="8080";//使用代理
$snoopy->maxredirs=2;//重定向次数
$snoopy->expandlinks=true;//是否补全链接在采集的时候经常用到
//例如链接为/images/taoav.gif可改为它的全链接<ahref="https://www.nhooo.com/images/taoav.gif">https://www.nhooo.com/images/taoav.gif</a>
$snoopy->maxframes=5//允许的最大框架数
//注意抓取框架的时候$snoopy->results返回的是一个数组
$snoopy->error//返回报错信息
?>