java通过Jsoup爬取网页过程详解
这篇文章主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
一,导入依赖
org.jsoup jsoup 1.10.3 org.apache.httpcomponents httpclient
二,编写demo类
注意不要导错包了,是org.jsoup.nodes下面的
packagecom.taotao.entity;
importorg.apache.http.HttpEntity;
importorg.apache.http.client.methods.CloseableHttpResponse;
importorg.apache.http.client.methods.HttpGet;
importorg.apache.http.impl.client.CloseableHttpClient;
importorg.apache.http.impl.client.HttpClients;
importorg.apache.http.util.EntityUtils;
importorg.jsoup.Jsoup;
importorg.jsoup.nodes.Document;
importorg.jsoup.nodes.Element;
importorg.jsoup.select.Elements;
importjava.io.IOException;
/**
*Author:TaoTao2019/9/26
*/
publicclassintefaceTest{
publicstaticvoidmain(String[]args)throwsIOException{
CloseableHttpClienthttpClient=HttpClients.createDefault();//创建httpClient
HttpGethttpGet=newHttpGet("http://www.cnblogs.com/");//创建httpget实例
CloseableHttpResponseresponse=httpClient.execute(httpGet);//执行get请求
HttpEntityentity=response.getEntity();//获取返回实体
Stringcontent=EntityUtils.toString(entity,"utf-8");//网页内容
response.close();//关闭流和释放系统资源
Jsoup.parse(content);
Documentdoc=Jsoup.parse(content);//解析网页得到文档对象
Elementselements=doc.getElementsByTag("title");//获取tag是title的所有dom文档
Elementelement=elements.get(0);//获取第一个元素
Stringtitle=element.text();//.html是返回html
System.out.println("网页标题:"+title);
Elementelement1=doc.getElementById("site_nav_top");//获取id=site_nav_top标签
Stringstr=element1.text();
System.out.println("str:"+str);
}
}
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。