JAVA过滤标签实现将html内容转换为文本的方法示例
本文实例讲述了JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:
/**
*把html内容转为文本
*@paramhtml需要处理的html文本
*@paramfilterTags需要保留的html标签样式
*@return
*/
publicstaticStringtrimHtml2Txt(Stringhtml,String[]filterTags){
html=html.replaceAll("\\[\\s\\S]*?(?i)","");//去掉head
html=html.replaceAll("\\","");//去掉注释
html=html.replaceAll("\\","");
html=html.replaceAll("\\(?i)","");//去掉样式
html=html.replaceAll("\\(?i)","");//去掉js
html=html.replaceAll("\\]+>[\\s\\S]*? ]+>(?i)","");//去掉word标签
html=html.replaceAll("\\[\\s\\S]*? (?i)","");
html=html.replaceAll("\\]*>|]*>||(?i)","");
html=html.replaceAll("\\\r\n|\n|\r","");//去掉换行
html=html.replaceAll("\\
]*>(?i)","\n\r");
Listtags=newArrayList();
Lists_tags=newArrayList();
ListhalfTag=Arrays.asList(newString[]{"img","table","thead","th","tr","td"});//
if(filterTags!=null&&filterTags.length>0){
for(Stringtag:filterTags){
tags.add("<"+tag+(halfTag.contains(tag)?"":">"));//开始标签
if(!"img".equals(tag))tags.add(""+tag+">");//结束标签
s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等
if(!"img".equals(tag))s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#");
}
}
html=StringUtils.replaceEach(html,tags.toArray(newString[tags.size()]),s_tags.toArray(newString[s_tags.size()]));
html=html.replaceAll("\\(?i)","\n\r");
html=html.replaceAll("\\<[^>]+>","");
html=StringUtils.replaceEach(html,s_tags.toArray(newString[s_tags.size()]),tags.toArray(newString[tags.size()]));
html=html.replaceAll("\\","");
returnhtml.trim();
}
PS:这里再为大家推荐一款功能类似的在线工具供大家参考使用:
在线html/js/css代码过滤工具
http://tools.jb51.net/code/htmlfilter
另外,关于正则操作,这里再为大家推荐两款相关在线工具:
JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg
更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总》
希望本文所述对大家java程序设计有所帮助。