Java获取任意http网页源代码的方法
本文实例讲述了JAVA获取任意http网页源代码。分享给大家供大家参考,具体如下:
JAVA获取任意http网页源代码可实现如下功能:
1.获取任意http网页的代码
2.获取任意http网页去掉HTML标签的代码
Webpage类:
/**
*网页操作相关类
*/
packagetest;
importjava.io.BufferedReader;
importjava.io.InputStreamReader;
importjava.net.URL;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;
/**
*@authorwinddack
*
*/
publicclassWebpage{
privateStringpageUrl;//定义需要操作的网页地址
privateStringpageEncode="UTF8";//定义需要操作的网页的编码
publicStringgetPageUrl(){
returnpageUrl;
}
publicvoidsetPageUrl(StringpageUrl){
this.pageUrl=pageUrl;
}
publicStringgetPageEncode(){
returnpageEncode;
}
publicvoidsetPageEncode(StringpageEncode){
this.pageEncode=pageEncode;
}
//定义取源码的方法
publicStringgetPageSource()
{
StringBuffersb=newStringBuffer();
try{
//构建一URL对象
URLurl=newURL(pageUrl);
//使用openStream得到一输入流并由此构造一个BufferedReader对象
BufferedReaderin=newBufferedReader(newInputStreamReader(url.openStream(),pageEncode));
Stringline;
//读取www资源
while((line=in.readLine())!=null)
{
sb.append(line);
}
in.close();
}
catch(Exceptionex)
{
System.err.println(ex);
}
returnsb.toString();
}
//定义一个把HTML标签删除过的源码的方法
publicStringgetPageSourceWithoutHtml()
{
finalStringregEx_script="