java获取文件编码,jsoup获取html纯文本操作
maven引入获取编码的jar
com.ibm.icu icu4j 67.1
获取文件编码
packagecom.lovnx.note.util; importcom.ibm.icu.text.CharsetDetector; importcom.ibm.icu.text.CharsetMatch; importorg.jsoup.Jsoup; importorg.jsoup.nodes.Document; importorg.jsoup.select.Elements; importjava.io.IOException; importjava.net.URL; importjava.nio.file.Files; importjava.nio.file.Path; importjava.nio.file.Paths; /** *@author@256g的胃 *@ClassNameHtmlParse *@Description *@Date15:322020/7/9 **/ publicclassHtmlParse{ publicstaticStringgetEncode(StringfilePath)throwsIOException{ Pathpath=Paths.get(filePath); byte[]data=Files.readAllBytes(path); CharsetDetectordetector=newCharsetDetector(); detector.setText(data); CharsetMatchmatch=detector.detect(); Stringencoding=match.getName(); System.out.println("TheContentin"+match.getName()); returnencoding; } publicstaticvoidmain(String[]args)throwsException{ System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html")); } }
上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本
Documentdoc=Jsoup.parse("读取的文本字符串,此处应该是带html标签的");
Stringtext=doc.text();
jsoup也支持直接指定文件的形式去获取纯文本
参考https://jsoup.org/
补充知识:java解析html/读取html内容
jsoup
String转化
1、Documentdoc=Jsoup.parse(html);
例如:
Stringhtml="Firstparse " +"ParsedHTMLintoadoc.
"; Documentdoc=Jsoup.parse(html); System.out.println(doc.text());;
常用api
2、获取节点文本:Document.text();
以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。