Java 根据网络URL获取该网页上面所有的img标签并下载图片
说明:根据网络URL获取该网页上面所有的img标签并下载符合要求的所有图片
所需jar包:jsoup.jar
importjava.io.BufferedInputStream; importjava.io.BufferedOutputStream; importjava.io.File; importjava.io.FileOutputStream; importjava.io.IOException; importjava.io.InputStream; importjava.io.OutputStream; importjava.net.MalformedURLException; importjava.net.URL; importjava.net.URLConnection; importjava.util.ArrayList; importjava.util.List; importjava.util.UUID; importorg.jsoup.Jsoup; importorg.jsoup.nodes.Document; importorg.jsoup.nodes.Element; importorg.jsoup.select.Elements; /** *图片批量下载工具类 *@authorMarydon *@createtime2016-9-3下午2:01:03 *@updatetime2017年9月30日11:07:02 *@E-mail:dellshouji@163.com */ publicclassImgDownloadUtil{ /** *根据URL获取网页DOM对象 *@paramurl *网址 *@returnDOM对象 */ publicstaticDocumentgetHtmlDocument(Stringurl){ Documentdocument=null; URLurlObj=null; try{ //1.建立网络连接 urlObj=newURL(url); //2.根据url获取Document对象 document=Jsoup.parse(urlObj,5000);//单位:毫秒超时时间 }catch(MalformedURLExceptione){ System.out.println("世界上最遥远的距离就是没有网,检查设置!"); e.printStackTrace(); }catch(IOExceptione){ System.out.println("您的网络连接打开失败,请稍后重试!"); e.printStackTrace(); } returndocument; } /** *根据URL获取网页源码 *@paramurl *网址 *@return网页源码 */ publicstaticStringgetHtmlText(Stringurl){ StringhtmlText=""; Documentdocument=null; URLurlObj=null; try{ //1.建立网络连接 urlObj=newURL(url); //2.根据url获取Document对象 document=Jsoup.parse(urlObj,5000);//单位:毫秒超时时间 //3.根据dom对象获取网页源码 htmlText=document.html(); }catch(MalformedURLExceptione){ System.out.println("世界上最遥远的距离就是没有网,检查设置!"); e.printStackTrace(); }catch(IOExceptione){ System.out.println("您的网络连接打开失败,请稍后重试!"); e.printStackTrace(); } returnhtmlText; } /** *操作Dom对象获取图片地址 *@paramdocument *Dom对象 *@return图片地址集合 */ publicstaticListgetImgAddressByDom(Documentdocument){ //用于存储图片地址 List imgAddress=newArrayList (); if(null!=document){ // //获取页面上所有的图片元素 Elementselements=document.getElementsByTag("img"); StringimgSrc=""; //迭代获取图片地址 for(Elementel:elements){ imgSrc=el.attr("src"); //imgSrc的内容不为空,并且以http://开头 if((!imgSrc.isEmpty())&&imgSrc.startsWith("http://")){ //将有效图片地址添加到List中 imgAddress.add(imgSrc); } } } returnimgAddress; } /** *根据网络URL下载文件 *@paramurl *文件所在地址 *@paramfileName *指定下载后该文件的名字 *@paramsavePath *文件保存根路径 */ publicstaticvoiddownloadFileByUrl(Stringurl,StringfileName,StringsavePath){ URLurlObj=null; URLConnectionconn=null; InputStreaminputStream=null; BufferedInputStreambis=null; OutputStreamoutputStream=null; BufferedOutputStreambos=null; try{ //1.建立网络连接 urlObj=newURL(url); //2.打开网络连接 conn=urlObj.openConnection(); //设置超时间为3秒 conn.setConnectTimeout(3*1000); //防止屏蔽程序抓取而返回403错误 conn.setRequestProperty("User-Agent","Mozilla/4.0(compatible;MSIE5.0;WindowsNT;DigExt)"); //3.得到输入流 inputStream=conn.getInputStream(); bis=newBufferedInputStream(inputStream); //文件保存位置 FilesaveDir=newFile(savePath); if(!saveDir.exists()){ saveDir.mkdirs(); } //文件的绝对路径 StringfilePath=savePath+File.separator+fileName; Filefile=newFile(filePath); //4. outputStream=newFileOutputStream(file); bos=newBufferedOutputStream(outputStream); byte[]b=newbyte[1024]; intlen=0; while((len=bis.read(b))!=-1){ bos.write(b,0,len); } System.out.println("info:"+url+"downloadsuccess,fileRename="+fileName); }catch(MalformedURLExceptione){ System.out.println("世界上最遥远的距离就是没有网,检查设置"); System.out.println("info:"+url+"downloadfailure"); e.printStackTrace(); }catch(IOExceptione){ System.out.println("您的网络连接打开失败,请稍后重试!"); System.out.println("info:"+url+"downloadfailure"); e.printStackTrace(); }finally{//关闭流 try{ if(bis!=null){//关闭字节缓冲输入流 bis.close(); } if(inputStream!=null){//关闭字节输入流 inputStream.close(); } if(bos!=null){//关闭字节缓冲输出流 bos.close(); } if(outputStream!=null){//关闭字节输出流 outputStream.close(); } }catch(IOExceptione){ e.printStackTrace(); } } } }
测试
publicstaticvoidmain(String[]args){ //1.确定网址 Stringurl="http://www.cnblogs.com/Marydon20170307/p/7402871.html"; //2.获取该网页的Dom对象 Documentdocument=getHtmlDocument(url); //3.获取该网页所有符合要求的图片地址 ListimgAddresses=getImgAddressByDom(document); StringimgName=""; StringimgType=""; //4.设置图片保存路径 StringsavePath="C:/Users/Marydon/Desktop"; //5.批量下载图片 for(StringimgSrc:imgAddresses){ //5.1图片命名:图片名用32位字符组成的唯一标识 imgName=UUID.randomUUID().toString().replace("-",""); //5.2图片格式(类型) imgType=imgSrc.substring(imgSrc.lastIndexOf(".")); imgName+=imgType; //5.3下载该图片 downloadFileByUrl(imgSrc,imgName,savePath); } }
以上就是Java根据网络URL获取该网页上面所有的img标签并下载图片的详细内容,更多关于java下载网络图片的资料请关注毛票票其它相关文章!