C#使用正则表达式过滤html标签

时间：2021-04-29 10:57:33|栏目：.NET代码|点击：次

在项目中遇到这样一个需求，需要将一段html转换为一般文本返回，万能的正则表达式来了。

正则表达式来拯救你，代码如下：

public static string Html2Text(string htmlStr)
{
if (String.IsNullOrEmpty(htmlStr))
{
return "";
}
string regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 
string regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式 
string regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式 
htmlStr = Regex.Replace(htmlStr, regEx_style, "");//删除css
htmlStr = Regex.Replace(htmlStr, regEx_script, "");//删除js
htmlStr = Regex.Replace(htmlStr, regEx_html, "");//删除html标记
htmlStr = Regex.Replace(htmlStr, "\\s*|\t|\r|\n", "");//去除tab、空格、空行
htmlStr = htmlStr.Replace(" ", "");
htmlStr = htmlStr.Replace(""", "");//去除异常的引号" " "
htmlStr = htmlStr.Replace(""", "");
return htmlStr.Trim();
}

上一篇：C#中datatable序列化与反序列化实例分析

栏目：.NET代码

下一篇：C#实现冒泡排序算法的代码示例

本文标题：C#使用正则表达式过滤html标签

本文地址：http://www.codeinn.net/misctech/111255.html

更多.NET代码

.NET代码

C#使用正则表达式过滤html标签

阅读排行

推荐教程