编写高质量的js之正确理解正则表达式回溯

网络编程 2024/11/7 佚名

3 2 1

当一个正则表达式扫描目标字符串时，从左到右逐个扫描正则表达式的组成部分，在每个位置上测试能不能找到一个匹配。对于每一个量词和分支，都必须确定如何继续进行。如果是一个量词（如*、+"htmlcode">

/h(ello|appy) hippo/.test("hello there, happy hippo");

上面一行正则表达式用于匹配“hello hippo”或“happy hippo”。测试一开始要查找一个h，目标字符串的第一个字母恰好就是h，立刻就找到了。接下来，子表达式（ello|appy）提供了两个处理选项。正则表达式选择最左边的选项（分支选择总是从左到右进行），检查ello 是否匹配字符串的下一个字符，确实匹配，然后正则表达式又匹配了后面的空格。

然而，在接下来的匹配中正则表达式“走进了死胡同”，因为hippo 中的h 不能匹配字符串中的下一个字母t。此时正则表达式还不能放弃，因为它还没有尝试过所有的选择，随后它回溯到最后一个检查点（在匹配了首字母h 之后的那个位置上）并尝试匹配第二个分支选项。但由于匹配没有成功，而且也没有更多的选项了，正则表达式认为从字符串的第一个字符开始匹配是不能成功的，因此它从第二个字符开始重新进行查找。正则表达式没有找到h，继续向后找，直到第14 个字母才找到，它匹配happy 的那个h。随后正则表达式再次进入分支过程，这次ello 未能匹配，但在回溯之后的第二次分支中，它匹配了整个字符串“happy hippo”，匹配成功了。

再如，下面代码演示了带重复量词的回溯。

var str = "<p>Para 1.</p>" +"<img src='smiley.jpg'>" +"<p>Para 2.</p>" +"<div>Div.</div>";
/<p>.*<\/p>/i.test(str);

正则表达式先匹配了字符串开始的3个字母<p>，然后是.*。点号表示匹配除换行符以外的任意字符，星号这个“贪婪”量词表示重复零次或多次，匹配尽量多的次数。因为目标字符串中没有换行符，正则表达式将匹配剩下的全部字符串！不过由于正则表达式模板中还有更多内容需要匹配，所以正则表达式尝试匹配<。由于在字符串末尾匹配不成功，因此每次回溯一个字符，继续尝试匹配<，直到正则表达式回到</div>标签的<位置。接下来尝试匹配\/（转义反斜杠），匹配成功，然后匹配p，匹配不成功。正则表达式继续回溯，重复此过程，直到第二段末尾时终于匹配了</p>。匹配返回成功需要从第一段头部一直扫描到最后一个的末尾，这可能不是我们想要的结果。

将正则表达式中的“贪婪”量词*改为“懒惰”（又名“非贪婪”）量词*"htmlcode">

/<html>[\s\S]*"\rn]*取代过于宽泛的.*"htmlcode">

/<html>(?:(?!<head>)[\s\S])*<head>(?:(?!<title>)[\s\S])*<title>

(?:(?!<\/title>)[\s\S])*<\/title>(?:(?!<\/head>)[\s\S])*<\/head>

(?:(?!<body>)[\s\S])*<body>(?:(?!<\/body>)[\s\S])*<\/body>
(?:(?!<\/html>)[\s\S])*<\/html>/


虽然这样做消除了潜在的回溯失控，并允许正则表达式在匹配不完整HTML字符串失败时的使用时间与文本长度呈线性关系，但是正则表达式的效率并没有提高。像这样为每个匹配字符进行多次前瞻，缺乏效率，而且成功匹配过程也相当慢。匹配较短字符串时使用此方法相当不错，而匹配一个HTML 文件可能需要前瞻并测试上千次。

正则表达式,回溯

标签：

正则表达式,回溯

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

桃源资源网 Design By www.nqtax.com

评论“编写高质量的js之正确理解正则表达式回溯”

编写高质量的js之正确理解正则表达式回溯

暂无“编写高质量的js之正确理解正则表达式回溯”评论...

www.nqtax.com 桃源资源网

19,905影音资源

44,626技术资源

1,817软件资源

378,645站长资源

P70系列延期，华为新旗舰将在下月发布

3月20日消息，近期博主@数码闲聊站透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。

而博主@定焦数码爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。

编写高质量的js之正确理解正则表达式回溯

正则表达式,回溯

正则表达式{n,m}量词(至少n次，最多m次)

js Abba逆向前瞻正则匹配实例

评论“编写高质量的js之正确理解正则表达式回溯”

P70系列延期，华为新旗舰将在下月发布

友情链接