去掉HTML代码的正则表达式
Michael.solofly
2009-03-03
以下为一段去掉文本中所有HTML代码的一段正则表达式
.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", ""); 在下因为业务需求,不能破坏业务逻辑,如果用上一段正则的话 我文本中包含的<br />和 也会被擦掉。 这样破坏了原来要输出的字符,为了能输出<br />和 所以把上面这段稍微折腾了一下。。成了下面这一段 .replaceAll("<br />","br").replaceAll("\\&[ace-hj-np-zACE-HJ-NP-Z]{1,10};", "").replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", "").replaceAll("Full Page Test","").replaceAll("br","<br />"); 这样输出的话 和<br /> 都会保留下来,这样就没破坏我的业务逻辑了。 本人正则接触的很少,以前只是知道,所以也可以说是刚接触, 拿来E3分享一下,各位正则达人别损我就好了。 第一次发帖 鼓励下吧。。。 |
|
huangyh
2009-03-05
我也不懂,谢谢分享
|
|
denghuihui
2009-08-12
先谢谢 我明天试试 。。。
|
|
gaozi131
2010-08-26
嗯 已经很不错了 谢谢分享
|
|
赤道螞蟻
2011-11-01
如果不涉及到<br/>
.replaceAll("<[^>]*>", "").replaceAll("[(/>)<]", ""); 不就可以吗? |
|
ylj817
2012-04-18
非常棒~~~ 多谢了
|