java读取html文件,并获取body中所有的标签及内容的案例
这里的获取的是html文件中body中的所有标签以及内容
packagecom.lmt.service.file;
importjava.io.BufferedReader;
importjava.io.File;
importjava.io.FileInputStream;
importjava.io.InputStreamReader;
importjava.io.Reader;
importorg.springframework.stereotype.Component;
importcom.lmt.config.UrlConstants;
@Component
publicclassParseFile{
/**
*解析html文件
*@paramfile
*@return
*/
publicStringreadHtml(Filefile){
Stringbody="";
try{
FileInputStreamiStream=newFileInputStream(file);
Readerreader=newInputStreamReader(iStream);
BufferedReaderhtmlReader=newBufferedReader(reader);
Stringline;
booleanfound=false;
while(!found&&(line=htmlReader.readLine())!=null){
if(line.toLowerCase().indexOf("的前面可能存在空格
found=true;
}
}
found=false;
while(!found&&(line=htmlReader.readLine())!=null){
if(line.toLowerCase().indexOf("元素,则分行进行替代
String[]splitLines=line.split("
元素
*@return文件名
*/
publicstaticStringextractFilename(StringhtmlLine){
intsrcIndex=htmlLine.toLowerCase().indexOf("src=");
if(srcIndex==-1){//图片不存在,返回空字符串
return"";
}else{
StringhtmlSrc=htmlLine.substring(srcIndex+4);
charsplitChar='\"';//默认为双引号,但也有可能为单引号
if(htmlSrc.charAt(0)=='\''){
splitChar='\'';
}
String[]firstSplit=htmlSrc.split(String.valueOf(splitChar));
Stringpath=firstSplit[1];//第0位为空字符串
String[]secondSplit=path.split("[/\\\\]");//匹配正斜杠或反斜杠
returnsecondSplit[secondSplit.length-1];
}
}
}
补充知识:StandardEngine[Catalina].StandardHost[localhost].StandardContext[]
jar包没有正确导入
1、在buildpath中添加
2、如果这里不添加在编译的时你的jar包将不会被导入
3、如果依然没有成功请删除userjar包重新导入
以上这篇java读取html文件,并获取body中所有的标签及内容的案例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。