Java中用爬虫进行解析的实例方法
我们都知道可以用爬虫来找寻一些想要的数据,除了可以使用python进行操作,我们最近学习的java同样也支持爬虫的运行,本篇小编就教大家用java爬虫来进行网页的解析,具体内容请往下看:
1、springboot项目,引入jsoup
org.jsoup jsoup 1.10.2
2、准备解析对象
Content.java
packagecom.asia.pojo;
importlombok.AllArgsConstructor;
importlombok.Data;
importlombok.NoArgsConstructor;
@Data
@NoArgsConstructor
@AllArgsConstructor
publicclassContent{
privateStringtitle;
privateStringimg;
privateStringprice;
}
3、爬虫工具类
HtmlParseUtil.java
packagecom.asia.utils;
importjava.net.URL;
importjava.net.URLDecoder;
importjava.util.ArrayList;
importjava.util.List;
importorg.jsoup.Jsoup;
importorg.jsoup.nodes.Document;
importorg.jsoup.nodes.Element;
importorg.jsoup.select.Elements;
importcom.asia.pojo.Content;
publicclassHtmlParseUtil{
publicstaticvoidmain(String[]args)throwsException{
newHtmlParseUtil().parseJD("西瓜").forEach(System.out::println);
}
publicListparseJD(Stringkeywords)throwsException{
Stringurl="https://search.jd.com/Search?keyword="+URLDecoder.decode(keywords,"GBK");
//解析网页.(Jsoup返回Document就是浏览器的Document对象)
Documentdocument=Jsoup.parse((newURL(url)),30000);
Elementelement=document.getElementById("J_goodsList");
Elementselements=element.getElementsByTag("li");
Listlist=newArrayList();
for(Elementel:elements){
Stringsrc=el.getElementsByTag("img").eq(0).attr("data-lazy-img");
Stringprice=el.getElementsByClass("p-price").eq(0).text();
Stringname=el.getElementsByClass("p-name").eq(0).text();
list.add(newContent(name,src,price));
}
returnlist;
}
}
到此这篇关于Java中用爬虫进行解析的实例方法的文章就介绍到这了,更多相关Java中如何使用爬虫进行解析内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。