JAVA使用HtmlUnit爬虫工具模拟登陆CSDN案例
最近要弄一个爬虫程序,想着先来个简单的模拟登陆,在权衡JxBrowser和HtmlUnit两种技术, JxBowser有界面呈现效果,但是对于某些js跳转之后的效果获取比较繁琐。
随后考虑用HtmlUnit,想着借用咱们CSND的登陆练练手。谁知道CSDN的登陆,js加载时间超长,不设置长一点的加载时间,按钮提交根本没效果,js没生效。具体看代码注释吧。奉劝做爬虫的同志们,千万别用CSDN登陆练手,坑死我了。
maven配置如下:
net.sourceforge.htmlunit htmlunit 2.18 org.jsoup jsoup 1.9.2
代码如下:
packagecom.test;
importjava.io.IOException;
importjava.net.MalformedURLException;
importjava.util.HashMap;
importjava.util.Map;
importjava.util.Set;
importcom.gargoylesoftware.htmlunit.BrowserVersion;
importcom.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
importcom.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
importcom.gargoylesoftware.htmlunit.SilentCssErrorHandler;
importcom.gargoylesoftware.htmlunit.WebClient;
importcom.gargoylesoftware.htmlunit.html.HtmlButtonInput;
importcom.gargoylesoftware.htmlunit.html.HtmlForm;
importcom.gargoylesoftware.htmlunit.html.HtmlPage;
importcom.gargoylesoftware.htmlunit.html.HtmlPasswordInput;
importcom.gargoylesoftware.htmlunit.html.HtmlTextInput;
importcom.gargoylesoftware.htmlunit.util.Cookie;
publicclassSimulateLogin
{
//访问的目标网址(CSDN)
privatestaticStringTARGET_URL="https://passport.csdn.net/account/login?from=http://www.csdn.net";
publicstaticvoidmain(String[]args)throwsFailingHttpStatusCodeException,MalformedURLException,IOException
{
//模拟一个浏览器
WebClientwebClient=newWebClient(BrowserVersion.CHROME);
//设置webClient的相关参数
webClient.setCssErrorHandler(newSilentCssErrorHandler());
//设置ajax
webClient.setAjaxController(newNicelyResynchronizingAjaxController());
//设置支持js
webClient.getOptions().setJavaScriptEnabled(true);
//CSS渲染禁止
webClient.getOptions().setCssEnabled(false);
//超时时间
webClient.getOptions().setTimeout(50000);
//设置js抛出异常:false
webClient.getOptions().setThrowExceptionOnScriptError(false);
//允许重定向
webClient.getOptions().setRedirectEnabled(true);
//允许cookie
webClient.getCookieManager().setCookiesEnabled(true);
//模拟浏览器打开一个目标网址
HtmlPagepage=webClient.getPage(TARGET_URL);
/**等待js加载完全,CSDN这点特别坑,js加载时间超长!!!!!!!后人切记不要用CSDN模拟登陆!!!!!!!**/
webClient.waitForBackgroundJavaScript(10000*3);
//根据form的名字获取页面表单,也可以通过索引来获取:page.getForms().get(0)
HtmlFormform=(HtmlForm)page.getElementById("fm1");
HtmlTextInputusername=(HtmlTextInput)form.getInputByName("username");
HtmlPasswordInputpassword=(HtmlPasswordInput)form.getInputByName("password");
username.setValueAttribute("********");//用户名
password.setValueAttribute("********");//密码
HtmlButtonInputbutton=(HtmlButtonInput)page.getByXPath("//input[contains(@class,'logging')]").get(0);
//ScriptResultresult=page.executeJavaScript("javascript:document.getElementsByClassName('logging')[0].click()");
//HtmlPageretPage=(HtmlPage)result.getNewPage();
HtmlPageretPage=button.click();
//等待JS驱动dom完成获得还原后的网页
webClient.waitForBackgroundJavaScript(1000);
//输出跳转网页的地址
System.out.println(retPage.getUrl().toString());
//输出跳转网页的内容
System.out.println(retPage.asXml());
//获取cookie
Setcookies=webClient.getCookieManager().getCookies();
MapresponseCookies=newHashMap();
for(Cookiec:cookies){
responseCookies.put(c.getName(),c.getValue());
System.out.print(c.getName()+":"+c.getValue());
}
webClient.close();
System.out.println("Success!");
}
}
另外,CSDN的JS总是莫名其妙的报一堆错,如果不想看,想忽略的话,在创建WebClient前加上如下代码:
//设置日志级别,原页面js异常不打印
LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log","org.apache.commons.logging.impl.NoOpLog");
java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit")
.setLevel(Level.OFF);
java.util.logging.Logger.getLogger("org.apache.commons.httpclient")
.setLevel(Level.OFF);
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。