在Java中轻松将HTML格式文本转换为纯文本的方法示例(保留换行)
时间:2021-04-06 10:02:19|栏目:JAVA代码|点击: 次
第一步:引入Jsoup和lang和lang3的依赖:
Jsoup是HTML解析器
lang和lang3这两个包里有转换所需的工具类
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency> <dependency> <groupId>commons-lang</groupId> <artifactId>commons-lang</artifactId> <version>2.6</version> </dependency> <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> <version>3.4</version> </dependency>
第二步:直接使用即可:
import org.apache.commons.lang.StringEscapeUtils;
import org.apache.commons.lang3.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.safety.Whitelist;
/**
* @author Piconjo
*/
public class Html2PlainText {
public static String convert(String html)
{
if (StringUtils.isEmpty(html))
{
return "";
}
Document document = Jsoup.parse(html);
Document.OutputSettings outputSettings = new Document.OutputSettings().prettyPrint(false);
document.outputSettings(outputSettings);
document.select("br").append("\\n");
document.select("p").prepend("\\n");
document.select("p").append("\\n");
String newHtml = document.html().replaceAll("\\\\n", "\n");
String plainText = Jsoup.clean(newHtml, "", Whitelist.none(), outputSettings);
String result = StringEscapeUtils.unescapeHtml(plainText.trim());
return result;
}
}
使用测试:




阅读排行
- 1Java Swing组件BoxLayout布局用法示例
- 2java中-jar 与nohup的对比
- 3Java邮件发送程序(可以同时发给多个地址、可以带附件)
- 4Caused by: java.lang.ClassNotFoundException: org.objectweb.asm.Type异常
- 5Java中自定义异常详解及实例代码
- 6深入理解Java中的克隆
- 7java读取excel文件的两种方法
- 8解析SpringSecurity+JWT认证流程实现
- 9spring boot里增加表单验证hibernate-validator并在freemarker模板里显示错误信息(推荐)
- 10深入解析java虚拟机




