Java获取网页数据步骤方法详解
在很多行业当中,我们需要对行业进行分析,就需要对这个行业的数据进行分类,汇总,及时分析行业的数据,对于公司未来的发展,有很好的参照和横向对比。面前通过网络进行数据获取是一个很有效而且快捷的方式。
首先我们来简单的介绍一下,利用java对网页数据进行抓取的一些步骤,有不足的地方,还望指正,哈哈。屁话不多说了。
其实一般分为以下步骤:
1:通过HttpClient请求到达某网页的url访问地址(特别需要注意的是请求方式)
2:获取网页源码
3:查看源码是否有我们需要提取的数据
4:对源码进行拆解,一般使用分割,正则或者第三方jar包
5:获取需要的数据对自己创建的对象赋值
6:数据提取保存
下面简单的说一下在提取数据中的部分源码,以及用途:
/**
*向指定URL发送GET方法的请求
*
*@paramurl
*发送请求的URL
*@paramparam
*请求参数,请求参数应该是name1=value1&name2=value2的形式。
*@returnURL所代表远程资源的响应结果
*/
publicstaticStringsendGet(Stringurl,Stringparam){
Stringresult="";
BufferedReaderin=null;
try{
StringurlNameString=url;
URLrealUrl=newURL(urlNameString);
//打开和URL之间的连接
URLConnectionconnection=realUrl.openConnection();
//设置通用的请求属性
connection.setRequestProperty("accept","*/*");
connection.setRequestProperty("connection","Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)");
//建立实际的连接
connection.connect();
//获取所有响应头字段
Map>map=connection.getHeaderFields();
//定义BufferedReader输入流来读取URL的响应
in=newBufferedReader(newInputStreamReader(
connection.getInputStream()));//这里如果出现乱码,请使用带编码的InputStreamReader构造方法,将需要的编码设置进去
Stringline;
while((line=in.readLine())!=null){
result+=line;
}
}catch(Exceptione){
System.out.println("发送GET请求出现异常!"+e);
e.printStackTrace();
}
//使用finally块来关闭输入流
finally{
try{
if(in!=null){
in.close();
}
}catch(Exceptione2){
e2.printStackTrace();
}
}
returnresult;
}
解析存储数据
publicBidgetData(Stringhtml)throwsException{
//获取的数据,存放在到Bid的对象中,自己可以重新建立一个对象存储
Bidbid=newBid();
//采用Jsoup解析
Documentdoc=Jsoup.parse(html);
//System.out.println("doc内容"+doc.text());
//获取html标签中的内容tr
Elementselements=doc.select("tr");
System.out.println(elements.size()+"****条");
//循环遍历数据
for(Elementelement:elements){
if(element.select("td").first()==null){
continue;
}
Elementstdes=element.select("td");
for(inti=0;i
得到的数据
Bid{
h2='详见内容',
itemName='诉讼服务中心设备采购',
item='货物/办公消耗用品及类似物品/其他办公消耗用品及类似物品',
itemUnit='详见内容',
areaName='港北区',
noticeTime='2018年10月22日18:41',
itemNoticeTime='null',
itemTime='null',
kaibiaoTime='2018年10月26日09:00',
winTime='null',
kaibiaoDiDian='null',
yusuanMoney='¥67.00元(人民币)',
allMoney='null',
money='null',
text=''
}
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。