微客导航 » 文章资讯 » java通过Jsoup爬取网页过程详解

java通过Jsoup爬取网页过程详解

2023-08-13 12:50:04 398

这篇文章主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

一，导入依赖



org.jsoup
jsoup
1.10.3



org.apache.httpcomponents
httpclient

二，编写demo类

注意不要导错包了,是org.jsoup.nodes下面的

packagecom.taotao.entity;
importorg.apache.http.HttpEntity;
importorg.apache.http.client.methods.CloseableHttpResponse;
importorg.apache.http.client.methods.HttpGet;
importorg.apache.http.impl.client.CloseableHttpClient;
importorg.apache.http.impl.client.HttpClients;
importorg.apache.http.util.EntityUtils;
importorg.jsoup.Jsoup;
importorg.jsoup.nodes.Document;
importorg.jsoup.nodes.Element;
importorg.jsoup.select.Elements;

importjava.io.IOException;

/**
*Author:TaoTao2019/9/26
*/
publicclassintefaceTest{
publicstaticvoidmain(String[]args)throwsIOException{
CloseableHttpClienthttpClient=HttpClients.createDefault();//创建httpClient
HttpGethttpGet=newHttpGet("http://www.cnblogs.com/");//创建httpget实例

CloseableHttpResponseresponse=httpClient.execute(httpGet);//执行get请求
HttpEntityentity=response.getEntity();//获取返回实体
Stringcontent=EntityUtils.toString(entity,"utf-8");//网页内容
response.close();//关闭流和释放系统资源

Jsoup.parse(content);
Documentdoc=Jsoup.parse(content);//解析网页得到文档对象
Elementselements=doc.getElementsByTag("title");//获取tag是title的所有dom文档
Elementelement=elements.get(0);//获取第一个元素
Stringtitle=element.text();//.html是返回html
System.out.println("网页标题："+title);
Elementelement1=doc.getElementById("site_nav_top");//获取id=site_nav_top标签
Stringstr=element1.text();
System.out.println("str:"+str);
}
}

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
3162201930
czq8825@qq.com

java通过Jsoup爬取网页过程详解

热门推荐

随机推荐