Java 根据网络URL获取该网页上面所有的img标签并下载图片
说明:根据网络URL获取该网页上面所有的img标签并下载符合要求的所有图片
所需jar包:jsoup.jar
importjava.io.BufferedInputStream;
importjava.io.BufferedOutputStream;
importjava.io.File;
importjava.io.FileOutputStream;
importjava.io.IOException;
importjava.io.InputStream;
importjava.io.OutputStream;
importjava.net.MalformedURLException;
importjava.net.URL;
importjava.net.URLConnection;
importjava.util.ArrayList;
importjava.util.List;
importjava.util.UUID;
importorg.jsoup.Jsoup;
importorg.jsoup.nodes.Document;
importorg.jsoup.nodes.Element;
importorg.jsoup.select.Elements;
/**
*图片批量下载工具类
*@authorMarydon
*@createtime2016-9-3下午2:01:03
*@updatetime2017年9月30日11:07:02
*@E-mail:dellshouji@163.com
*/
publicclassImgDownloadUtil{
/**
*根据URL获取网页DOM对象
*@paramurl
*网址
*@returnDOM对象
*/
publicstaticDocumentgetHtmlDocument(Stringurl){
Documentdocument=null;
URLurlObj=null;
try{
//1.建立网络连接
urlObj=newURL(url);
//2.根据url获取Document对象
document=Jsoup.parse(urlObj,5000);//单位:毫秒超时时间
}catch(MalformedURLExceptione){
System.out.println("世界上最遥远的距离就是没有网,检查设置!");
e.printStackTrace();
}catch(IOExceptione){
System.out.println("您的网络连接打开失败,请稍后重试!");
e.printStackTrace();
}
returndocument;
}
/**
*根据URL获取网页源码
*@paramurl
*网址
*@return网页源码
*/
publicstaticStringgetHtmlText(Stringurl){
StringhtmlText="";
Documentdocument=null;
URLurlObj=null;
try{
//1.建立网络连接
urlObj=newURL(url);
//2.根据url获取Document对象
document=Jsoup.parse(urlObj,5000);//单位:毫秒超时时间
//3.根据dom对象获取网页源码
htmlText=document.html();
}catch(MalformedURLExceptione){
System.out.println("世界上最遥远的距离就是没有网,检查设置!");
e.printStackTrace();
}catch(IOExceptione){
System.out.println("您的网络连接打开失败,请稍后重试!");
e.printStackTrace();
}
returnhtmlText;
}
/**
*操作Dom对象获取图片地址
*@paramdocument
*Dom对象
*@return图片地址集合
*/
publicstaticListgetImgAddressByDom(Documentdocument){
//用于存储图片地址
ListimgAddress=newArrayList();
if(null!=document){
//
//获取页面上所有的图片元素
Elementselements=document.getElementsByTag("img");
StringimgSrc="";
//迭代获取图片地址
for(Elementel:elements){
imgSrc=el.attr("src");
//imgSrc的内容不为空,并且以http://开头
if((!imgSrc.isEmpty())&&imgSrc.startsWith("http://")){
//将有效图片地址添加到List中
imgAddress.add(imgSrc);
}
}
}
returnimgAddress;
}
/**
*根据网络URL下载文件
*@paramurl
*文件所在地址
*@paramfileName
*指定下载后该文件的名字
*@paramsavePath
*文件保存根路径
*/
publicstaticvoiddownloadFileByUrl(Stringurl,StringfileName,StringsavePath){
URLurlObj=null;
URLConnectionconn=null;
InputStreaminputStream=null;
BufferedInputStreambis=null;
OutputStreamoutputStream=null;
BufferedOutputStreambos=null;
try{
//1.建立网络连接
urlObj=newURL(url);
//2.打开网络连接
conn=urlObj.openConnection();
//设置超时间为3秒
conn.setConnectTimeout(3*1000);
//防止屏蔽程序抓取而返回403错误
conn.setRequestProperty("User-Agent","Mozilla/4.0(compatible;MSIE5.0;WindowsNT;DigExt)");
//3.得到输入流
inputStream=conn.getInputStream();
bis=newBufferedInputStream(inputStream);
//文件保存位置
FilesaveDir=newFile(savePath);
if(!saveDir.exists()){
saveDir.mkdirs();
}
//文件的绝对路径
StringfilePath=savePath+File.separator+fileName;
Filefile=newFile(filePath);
//4.
outputStream=newFileOutputStream(file);
bos=newBufferedOutputStream(outputStream);
byte[]b=newbyte[1024];
intlen=0;
while((len=bis.read(b))!=-1){
bos.write(b,0,len);
}
System.out.println("info:"+url+"downloadsuccess,fileRename="+fileName);
}catch(MalformedURLExceptione){
System.out.println("世界上最遥远的距离就是没有网,检查设置");
System.out.println("info:"+url+"downloadfailure");
e.printStackTrace();
}catch(IOExceptione){
System.out.println("您的网络连接打开失败,请稍后重试!");
System.out.println("info:"+url+"downloadfailure");
e.printStackTrace();
}finally{//关闭流
try{
if(bis!=null){//关闭字节缓冲输入流
bis.close();
}
if(inputStream!=null){//关闭字节输入流
inputStream.close();
}
if(bos!=null){//关闭字节缓冲输出流
bos.close();
}
if(outputStream!=null){//关闭字节输出流
outputStream.close();
}
}catch(IOExceptione){
e.printStackTrace();
}
}
}
}
测试
publicstaticvoidmain(String[]args){
//1.确定网址
Stringurl="http://www.cnblogs.com/Marydon20170307/p/7402871.html";
//2.获取该网页的Dom对象
Documentdocument=getHtmlDocument(url);
//3.获取该网页所有符合要求的图片地址
ListimgAddresses=getImgAddressByDom(document);
StringimgName="";
StringimgType="";
//4.设置图片保存路径
StringsavePath="C:/Users/Marydon/Desktop";
//5.批量下载图片
for(StringimgSrc:imgAddresses){
//5.1图片命名:图片名用32位字符组成的唯一标识
imgName=UUID.randomUUID().toString().replace("-","");
//5.2图片格式(类型)
imgType=imgSrc.substring(imgSrc.lastIndexOf("."));
imgName+=imgType;
//5.3下载该图片
downloadFileByUrl(imgSrc,imgName,savePath);
}
}
以上就是Java根据网络URL获取该网页上面所有的img标签并下载图片的详细内容,更多关于java下载网络图片的资料请关注毛票票其它相关文章!