java通过Jsoup爬取网页过程详解
这篇文章主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
一,导入依赖
org.jsoup jsoup 1.10.3 org.apache.httpcomponents httpclient
二,编写demo类
注意不要导错包了,是org.jsoup.nodes下面的
packagecom.taotao.entity; importorg.apache.http.HttpEntity; importorg.apache.http.client.methods.CloseableHttpResponse; importorg.apache.http.client.methods.HttpGet; importorg.apache.http.impl.client.CloseableHttpClient; importorg.apache.http.impl.client.HttpClients; importorg.apache.http.util.EntityUtils; importorg.jsoup.Jsoup; importorg.jsoup.nodes.Document; importorg.jsoup.nodes.Element; importorg.jsoup.select.Elements; importjava.io.IOException; /** *Author:TaoTao2019/9/26 */ publicclassintefaceTest{ publicstaticvoidmain(String[]args)throwsIOException{ CloseableHttpClienthttpClient=HttpClients.createDefault();//创建httpClient HttpGethttpGet=newHttpGet("http://www.cnblogs.com/");//创建httpget实例 CloseableHttpResponseresponse=httpClient.execute(httpGet);//执行get请求 HttpEntityentity=response.getEntity();//获取返回实体 Stringcontent=EntityUtils.toString(entity,"utf-8");//网页内容 response.close();//关闭流和释放系统资源 Jsoup.parse(content); Documentdoc=Jsoup.parse(content);//解析网页得到文档对象 Elementselements=doc.getElementsByTag("title");//获取tag是title的所有dom文档 Elementelement=elements.get(0);//获取第一个元素 Stringtitle=element.text();//.html是返回html System.out.println("网页标题:"+title); Elementelement1=doc.getElementById("site_nav_top");//获取id=site_nav_top标签 Stringstr=element1.text(); System.out.println("str:"+str); } }
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。