去掉HTML代码的正则表达式

Michael.solofly 2009-03-03

以下为一段去掉文本中所有HTML代码的一段正则表达式

.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", "");

在下因为业务需求，不能破坏业务逻辑，如果用上一段正则的话
我文本中包含的<br />和  也会被擦掉。
这样破坏了原来要输出的字符，为了能输出<br />和 

所以把上面这段稍微折腾了一下。。成了下面这一段

.replaceAll("<br />","br").replaceAll("\\&[ace-hj-np-zACE-HJ-NP-Z]{1,10};", "").replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", "").replaceAll("Full Page Test","").replaceAll("br","<br />");

这样输出的话 和<br /> 都会保留下来，这样就没破坏我的业务逻辑了。
本人正则接触的很少，以前只是知道，所以也可以说是刚接触，
拿来E3分享一下，各位正则达人别损我就好了。

第一次发帖鼓励下吧。。。

huangyh 2009-03-05

我也不懂，谢谢分享

denghuihui 2009-08-12

先谢谢我明天试试。。。

gaozi131 2010-08-26

嗯已经很不错了谢谢分享

赤道螞蟻 2011-11-01

如果不涉及到<br/>
.replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", "");
不就可以吗？

ylj817 2012-04-18

非常棒~~~ 多谢了

发表回复

>>返回群组首页

去掉HTML代码的正则表达式

相关讨论

相关资源推荐