正则表达式 (regular expression), 常简写为 regex, 用于在字符串中进行比较复杂的匹配
现有两种类型的正则表达式 perl 和 POSIX, perl 类型 更规范,执行效率越高, POSIX 类型常用于 Unix
php 提供了两套正则表达式函数库
preg_ 系列以 perl 为基础
ereg_ 系列以 POSIX 为基础
preg_ 系列更常用,ereg_ 将要被淘汰
ASCII码中,除了下面要介绍的字符之外的,所有字符。基本字符与下面要介绍的各种特殊字符与模式结合使用,就形成了所谓的正则表达式。
圆括号中的基本字符在匹配时被看做一个整体。
正则 | 匹配 |
---|---|
(abc) | abc |
该整体会保存在内存中,可作为整体获取,例如 "/go(abc)g\\1le/" 可以匹配 goabcgabcle, \\1 对应了 abc。
这种方法可用于匹配不同格式的日期 "/2014(.*)06\1(13)/" 可匹配 2014/06/13 或 2014-06-13 , 但不可匹配 2014-06/13 。这里 \\1(13) 如不加括号会被认为内存中的第 113 号。
也可以用模式修饰符 x 实现 "/2014(.*)06\1 13/x",
与单元符号相反,原子表用于匹配其中的中任意一个原子。
正则 | 匹配 |
---|---|
[abc] | a 或 b 或 c |
原子表中 x-y 匹配 x 到 y 范围内的字符, 常见用法如下
正则 | 匹配 |
---|---|
[0-9] | 所有数字 |
[a-z] | 所有小写字母 |
[A-z] | 所有大写字母 |
[a-zA-z] | 所有字母 |
需要注意的是 ^ 符号在原子表中表示排除,而在元字符中表示开头
正则 | 匹配 |
---|---|
[^abc] | 除了abc外的字符 |
[^0-9] | 所有 非 数字 |
转义字符就是一些常用原子表表达式的简写
转义字符 | 匹配 | 原子表表示 |
---|---|---|
\d | 所有数字 | [0-9] |
\D | 除所有数字外 | [^0-9] |
\w | 所有字母加数字加下划线 | [a-zA-Z0-9_] |
\W | 除字母数字下划线之外的字符 | [^a-zA-Z0-9_] |
\s | 匹配空白(Tab,空格,换页,换行) | [\f\v\t\r\n] |
\S | 匹配非空白 | [^\f\v\t\r\n] |
字符 | 匹配 |
---|---|
. | 匹配除换行符以外的任意字符 |
* | 匹配前一个内容的0次或1次或多次 |
+ | 匹配前一个内容的1次或多次 |
? | 匹配0次或1次 |
| | 逻辑符 “或” |
^ | 匹配字符串首部内容,加在原子前, 例如 ^abc |
$ | 匹配字符串尾部部内容, 加在原子后, 例如 abc$ |
\b | 通过边界匹配单词,边界为空格或特殊符号, \bis\b 用于匹配 is 单词 |
\B | 通过边界匹配单词以外内容 |
{m} | 匹配前一个内容的m次 |
{m,} | 匹配前一个内容的大于等于m次 |
{m,n} | 匹配前一个内容的m到n次 |
从高到底
()
* ? + {}
^ $ \b
|
基本字符
模式修饰符在正则之外使用,格式为 /正则/U , U 代表模式修饰符
修饰符 | 用法 |
---|---|
i | 匹配时不区分大小写 (默认区分) |
m | 匹配首内容和尾内容时采用多行识别(默认^和$匹配整个段落的开头和结尾,加了m之后变为行首和行尾) |
s | 将回车转义取消,这样 .* 就可以匹配所有内容 |
x | 忽略正则表达式中的空白 |
A | 强制从段落头开始匹配 "/xxx/mA" 相当于没有加 m |
D | 强制从段落尾开始匹配 (此外,由于默认 $ 会从行尾的 \n 之前开始匹配,D还用来在尾部从 \n 开始) |
U | 禁止贪婪匹配,匹配到第一个符合条件的部分就停止,常用于采集程序 |
用途 | 正则表达式 |
---|---|
判断email地址 | ^[a-zA-Z0-9_-.]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+$ |
判断日期 | [0-9]{2-4}(.*)[0-9]{0,2}\\1[0-9]{0,2} |
非负整数(正整数+0) | ^[0-9]+$ |
正整数 | ^[0-9]*[1-9]+[0-9]*$ |
非正整数(负整数+0) | ^(-[1-9]+|(0))$ |
负整数 | ^-[0-9]+$ |
执行一个正则表达式匹配,没什么可多说的,例子如下
$subject = "标题: {title}<br>作者: {author}<br>内容: {con}"; $pattern = ("/{(.*)}/U"); preg_match($pattern, $subject, $matches); print_r($matches);
输出
Array ( [0] => {title} [1] => title )
这里只匹配了一个就停止了是因为我们加了模式修饰符 U
与 preg_match 的区别在于,preg_match_all 在第一个匹配找到后,从结束位置继续进行搜索,使用相同的目标字符和正则表达式
$subject = "标题: {title}<br>作者: {author}<br>内容: {con}"; $pattern = ("/{(.*)}/U"); preg_match_all($pattern, $subject, $matches); print_r($matches);
输出结果如下
Array ( [0] => Array ( [0] => {title} [1] => {author} [2] => {con} ) [1] => Array ( [0] => title [1] => author [2] => con ) )
用给定内容替换正则表达式匹配的内容,并返回修改后的字符串,以下是一个实现非常简单的类 smarty 模板例子
$subject = "标题: {title}<br>作者: {author}<br>内容: {con}"; $pattern = array("/{title}/", "/{author}/", "/{con}/"); $replacement = array("Myregex", "gipanda", "simplesmarty"); echo preg_replace($pattern, $replacement, $subject);
输出
标题: Myregex 作者: gipanda 内容: simplesmarty
模式修正符 e 用于执行 replacement 中的内容
$subject = "test <font color=red>a</font> test"; $pattern = ("/(a)/e"); echo preg_replace($pattern, "md5('\\1')", $subject);
输出
test 0cc175b9c0f1b6a831c399e269772661 test
不加模式修正符 e 会输出
test md5('a') test
md5() 没有被当做函数执行
按给定正则(一般式原子表)分割字符串
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。