本篇文章给大家分享的是有关Java中的正则表达式如何实现匹配特定html标签内的内容,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
如题:
使用正则表达式,怎么匹配特定html标签内的内容。
比如,对于如下文本串:
... ignored content
prefix content
<html>inner content</html>
postfix content
... ignored content
我们要提取出<html>标签内的内容: inner content(这里的html标签可以换成任何其它的标签,比如<p>标签)
这里引入正则表达式的group概念:详细点击文章查看
比如:对于一个正则表达式( ( A ) ( B ( C ) ) )
这样,我们就能够构造出如下的正则表达式:.*(<(html>)(.*)</\2).*
此表达式的group概念为:
显然我们要求的就是group3的内容。
注意:\2是对group2的引用,也就是html>
该正则表达式也可以写成: .*(<(html>)(.*)</(html>)).*
化简其实就是.*<html>(.*)</html>.*
代码实现为:
String p = ".*(<(html>)(.*)</\\2).*"; String m = "prefix<html>午休abc</html>postfix"; System.out.println("Pattern: " + p); System.out.println("String to be test: " + m); Pattern pattern = Pattern.compile(p); Matcher matcher = pattern.matcher(m); if(matcher.matches()) { System.out.println("Matched String: " + matcher.group(3)); } else { System.out.println("So sad, not matching anything!"); }
以上就是Java中的正则表达式如何实现匹配特定html标签内的内容,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。