去掉HTML代码的正则表达式

Michael.solofly 2009-03-03
以下为一段去掉文本中所有HTML代码的一段正则表达式
.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", ""); 


在下因为业务需求,不能破坏业务逻辑,如果用上一段正则的话
我文本中包含的<br />和&nbsp; 也会被擦掉。
这样破坏了原来要输出的字符,为了能输出<br />和&nbsp;

所以把上面这段稍微折腾了一下。。成了下面这一段

.replaceAll("<br />","br").replaceAll("\\&[ace-hj-np-zACE-HJ-NP-Z]{1,10};", "").replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", "").replaceAll("Full Page Test","").replaceAll("br","<br />");


这样输出的话&nbsp;和<br /> 都会保留下来,这样就没破坏我的业务逻辑了。
本人正则接触的很少,以前只是知道,所以也可以说是刚接触,
拿来E3分享一下,各位正则达人别损我就好了。 
第一次发帖 鼓励下吧。。。
huangyh 2009-03-05
我也不懂,谢谢分享
denghuihui 2009-08-12
先谢谢  我明天试试 。。。
gaozi131 2010-08-26
嗯 已经很不错了  谢谢分享
赤道螞蟻 2011-11-01
如果不涉及到<br/>
.replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", "");
不就可以吗?
ylj817 2012-04-18
非常棒~~~ 多谢了
Global site tag (gtag.js) - Google Analytics