温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

正则表达式学习之回溯引用backreference的示例分析

发布时间:2021-08-25 09:52:38 来源:亿速云 阅读:131 作者:小新 栏目:互联网科技

这篇文章将为大家详细讲解有关正则表达式学习之回溯引用backreference的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

一、问题引入

一个在HTML页面中匹配标题标签(H1—H6)的问题:

文本:

<body>
<h2>Welcome to my page</H1>
Content is divided into twosections:<br>
<h3>Introduction</h3>
Information about me.
<H2>Hobby</H2>
Information about my hobby.
<h3>This is invalid HTML</h4>
</body>

正则表达式:<[hH][1-6]>.*?</[hH][1-6]>

结果:

<body>
【<h2>Welcome to my page</H1>】
Content is divided into twosections:<br>
【<h3>Introduction</h3>】
Information about me.
【<H2>Hobby</H2>】
Information about my hobby.
【<h3>This is invalid HTML</h4>】
</body>

分析:模式<[hH][1-6]>匹配任何一级标题的开始标签,而且不区分大小写,在这个例子中它匹配到了<h2>、<h3>,</[hH][1-6]>匹配到了</h2>、</h3>、</h4>;这里使用了懒惰型元字符来匹配标签中的文本,否则会匹配到从第一个开始标签到最后一下结束标签之间的内容。但是从结果可以看出,有一个无效的标签也匹配上了,即<h3></h4>,它们根本不能配对。要解决这个问题,就需要使用到回溯引用(backreference)。

二、回溯引用匹配

回溯引用是指模式的后半部分引用在前半部分中定义的子表达式。至于子表达式的使用、划分和引用,在前面已经介绍过了。现在来解决前面的例子:

文本:

<body>
<h2>Welcome to my page</H1>
Content is divided into twosections:<br>
<h3>Introduction</h3>
Information about me.
<H2>Hobby</H2>
Information about my hobby.
<h3>This is invalid HTML</h4>
</body>

正则表达式:<[hH]([1-6])>.*?</[hH]\1>

结果:

<body>
【<h2>Welcome to my page</H1>】
Content is divided into twosections:<br>
【<h3>Introduction</h3>】
Information about me.
【<H2>Hobby</H2>】
Information about my hobby.
<h3>This is invalid HTML</h4>

分析:首先匹配开始标题标签的模式<[hH]([1-6])>,使用括号把[1-6]做为子表达式,而匹配结束标题标签模式为</[hH]\1>,其中\1表示引用第一个子表达式,即([1-6]),如果([1-6])匹配到的是1,那\1也匹配到1,如果匹配到2,那\1也匹配到2,所以最后一个无效的标题标签就不会被匹配到了。

关于“正则表达式学习之回溯引用backreference的示例分析”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI