Java实现从Html文本中提取纯文本的方法
1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签;
2、代码一:replaceAll搞定
//从html中提取纯文本
publicstaticStringStripHT(StringstrHtml){
Stringtxtcontent=strHtml.replaceAll("?[^>]+>","");//剔出的标签
txtcontent=txtcontent.replaceAll("\\s*|\t|\r|\n","");//去除字符串中的空格,回车,换行符,制表符
returntxtcontent;
}
3、代码二:正则表达式搞定
//从html中提取纯文本
publicstaticStringHtml2Text(StringinputString){
StringhtmlStr=inputString;//含html标签的字符串
StringtextStr="";
java.util.regex.Patternp_script;
java.util.regex.Matcherm_script;
java.util.regex.Patternp_style;
java.util.regex.Matcherm_style;
java.util.regex.Patternp_html;
java.util.regex.Matcherm_html;
try{
StringregEx_script="<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";//定义script的正则表达式{或