这篇文章写一写我最近在用 Python 的正则表达式模块(re
)开发 CPython 的 SBOM 工具时发现的一个令人惊讶的行为。
如果用过正则表达式,你可能知道 ^
表示 “字符串开始”,并相应地将 $
视为 “字符串结束”。因此认为, cat$
模式会匹配字符串 "lolcat"
,但不会匹配 "internet cat video"
。
^
的行为让我认为 $
也是类似的,但这并不一定成立,而且这种行为取决于不同编程语言及其写法。
特别是对于 Python 来说,如果禁用了多行模式(这是默认设置),那么,$
字符不仅可以匹配字符串的末尾,还可以匹配字符串末尾的换行符。
所以,如果你试图匹配一个末尾没有换行符的字符串,在 Python 中使用 $
是做不到的!我本以为禁用多行模式后,就不会有这种匹配换行符的行为,但事实恰恰相反。
下一个合乎逻辑的问题是,如何在 Python 中匹配一个末尾不含换行符的字符串?
在对 Python 和其它正则表达式语法进行多番研究后,我还发现了 \z
和 \Z
可以用于匹配 “字符串结束” 字符。
在 Python 中,可以用 re.MULTILINE
来启用多行模式,文档的描述如下:
当指定
re.MULTILINE
时,模式字符'$'
会匹配字符串末尾以及每一行末尾(包含换行符)。默认情况下,'$' 只匹配字符串末尾以及字符串末尾的换行符之前(如果有的话)。
让我们看看这些特性在不同平台上是什么表现:
模式匹配 "cat\n"? | "cat$" 多行模式 | "cat$" 无多行模式 | "cat\z" | "cat\Z" |
---|---|---|---|---|
PHP | ✅ | ✅ | ❌ | ✅ |
ECMAScript | ✅ | ❌ | ⚠️ | ⚠️ |
Python | ✅ | ✅ | ⚠️ | ❌ |
Golang | ✅ | ❌ | ❌ | ⚠️ |
Java 8 | ✅ | ✅ | ❌ | ✅ |
.NET 7.0 | ✅ | ✅ | ❌ | ✅ |
Rust | ✅ | ❌ | ❌ | ⚠️ |
✅: 模式与字符串
"cat\n"
匹配❌: 模式与字符串
"cat\n"
不匹配⚠️: 模式无效或不支持该用法
综合上述表格,如果要匹配换行符,那么在所有语言中使用多行模式的 $
,都能匹配成功;但如果不想匹配换行符,事情就会变得复杂起来。
如果不想匹配换行符,在除了 Python 和 ECMAScript 外的其它语言中,你可以使用 \z
。而在 Python 中,你需要使用 \Z
,在 ECMAScript 中使用非多行模式的 $
。