Java获取任意http网页源代码的方法
本文实例讲述了JAVA获取任意http网页源代码。分享给大家供大家参考,具体如下:
JAVA获取任意http网页源代码可实现如下功能:
1.获取任意http网页的代码
2.获取任意http网页去掉HTML标签的代码
Webpage类:
/** *网页操作相关类 */ packagetest; importjava.io.BufferedReader; importjava.io.InputStreamReader; importjava.net.URL; importjava.util.regex.Matcher; importjava.util.regex.Pattern; /** *@authorwinddack * */ publicclassWebpage{ privateStringpageUrl;//定义需要操作的网页地址 privateStringpageEncode="UTF8";//定义需要操作的网页的编码 publicStringgetPageUrl(){ returnpageUrl; } publicvoidsetPageUrl(StringpageUrl){ this.pageUrl=pageUrl; } publicStringgetPageEncode(){ returnpageEncode; } publicvoidsetPageEncode(StringpageEncode){ this.pageEncode=pageEncode; } //定义取源码的方法 publicStringgetPageSource() { StringBuffersb=newStringBuffer(); try{ //构建一URL对象 URLurl=newURL(pageUrl); //使用openStream得到一输入流并由此构造一个BufferedReader对象 BufferedReaderin=newBufferedReader(newInputStreamReader(url.openStream(),pageEncode)); Stringline; //读取www资源 while((line=in.readLine())!=null) { sb.append(line); } in.close(); } catch(Exceptionex) { System.err.println(ex); } returnsb.toString(); } //定义一个把HTML标签删除过的源码的方法 publicStringgetPageSourceWithoutHtml() { finalStringregEx_script="