正则表达式中 “$” 并不是表示 “字符串结束- 橘子加速器,免费好用的合法海外网络加速器及工具下载

这篇文章写一写我最近在用 Python 的正则表达式模块（re）开发 CPython 的 SBOM 工具时发现的一个令人惊讶的行为。

如果用过正则表达式，你可能知道 ^ 表示 “字符串开始”，并相应地将 $ 视为 “字符串结束”。因此认为， cat$ 模式会匹配字符串 "lolcat" ，但不会匹配 "internet cat video"。

^ 的行为让我认为 $ 也是类似的，但这并不一定成立，而且这种行为取决于不同编程语言及其写法。

特别是对于 Python 来说，如果禁用了多行模式（这是默认设置），那么，$ 字符不仅可以匹配字符串的末尾，还可以匹配字符串末尾的换行符。

所以，如果你试图匹配一个末尾没有换行符的字符串，在 Python 中使用 $ 是做不到的！我本以为禁用多行模式后，就不会有这种匹配换行符的行为，但事实恰恰相反。

下一个合乎逻辑的问题是，如何在 Python 中匹配一个末尾不含换行符的字符串？

在对 Python 和其它正则表达式语法进行多番研究后，我还发现了 \z 和 \Z 可以用于匹配 “字符串结束” 字符。

在 Python 中，可以用 re.MULTILINE 来启用多行模式，文档的描述如下：

当指定 re.MULTILINE 时，模式字符 '$' 会匹配字符串末尾以及每一行末尾（包含换行符）。默认情况下，'$' 只匹配字符串末尾以及字符串末尾的换行符之前（如果有的话）。

让我们看看这些特性在不同平台上是什么表现：

模式匹配 "cat\n"？	"cat$" 多行模式	"cat$" 无多行模式	"cat\z"	"cat\Z"
PHP	✅	✅	❌	✅
ECMAScript	✅	❌	⚠️	⚠️
Python	✅	✅	⚠️	❌
Golang	✅	❌	❌	⚠️
Java 8	✅	✅	❌	✅
.NET 7.0	✅	✅	❌	✅
Rust	✅	❌	❌	⚠️

综合上述表格，如果要匹配换行符，那么在所有语言中使用多行模式的 $ ，都能匹配成功；但如果不想匹配换行符，事情就会变得复杂起来。

如果不想匹配换行符，在除了 Python 和 ECMAScript 外的其它语言中，你可以使用 \z。而在 Python 中，你需要使用 \Z ，在 ECMAScript 中使用非多行模式的 $。