正则表达式正向预搜索的问题

Dic4000 2008-12-24 08:40:19



string str ="aaa bbbb ffffff 999999999";

Regex r = new Regex(@"(\w)((?=\1\1\1)(\1))+");

  foreach (Match m in r.Matches(str))

            {

              Console.WriteLine("Match:Value={0},Index={1},Length={2}", m.Value, m.Index, m.Length);

            }

结果如下:
Match:Value=bb,Index=4,Length=2
Match:Value=ffff,Index=9,Length=4
Match:Value=9999999,Index=16,Length=7

表达式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 时，将可以匹配4个"b"的前2个，可以匹配6个"f"的前4个，可以匹配9个"9"的前7个。我想问的是为什么漏掉的总是最后两个字母?它们为什么不能匹配成功?哪个规则导致了这种影响?能详细说说好吗?

...全文

1430 23 打赏收藏转发到动态举报

写回复

用AI写文章

23 条回复

切换为时间正序

请发表友善的回复…

发表回复

sharpe 2009-01-09

打赏
举报

结这么早，感觉上面的人解释得不很满意，，，自己试了一下，有一些见解

sprc_lcl 2008-12-25

打赏
举报

我被绕糊涂了，看了楼上的才明白过来，回了言后才发现m.Index就第一位的

-过客- 2008-12-25

打赏
举报

那个啥，我还没睡zzzZZZ~~~

楼主的正则，(\w)((?=\1\1\1)(\1))+，其实就等价于
(\w)(\1)*(?=\1\1\1)(\1)

这个会相对好理解一些

说下分析过程，因为+表示{1,}，下面的“次数”表示((?=\1\1\1)(\1))+匹配成功的次数
次数楼主的正则等价于
1 (\w)((?=\1\1\1)(\1))
2 (\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))
3 (\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))((?=\1\1\1)(\1))
...

因为如果最后一个((?=\1\1\1)(\1))匹配成功，那么中间的((?=\1\1\1)(\1))一定成功，所以中间的限制条件(?=\1\1\1)就没有意义了，这时就可以简写为(\1)
也就是
次数楼主的正则等价于
1 (\w)((?=\1\1\1)(\1))
2 (\w)(\1)((?=\1\1\1)(\1))
3 (\w)(\1)(\1)((?=\1\1\1)(\1))
...

可以归纳为等价于
(\w)(\1)*((?=\1\1\1)(\1))
因为((?=\1\1\1)(\1))开始和结尾的()原来是用作量词+限制范围的，这里已经没有什么意义了，所以表达式最后可以归纳为等价于
(\w)(\1)*(?=\1\1\1)(\1)

分析这个表达式就容易多了
(\w)匹配一个字符，占一位，\1是对\w匹配内容的引用，(\1)*可以匹配0到无穷多个(\w)匹配到的字符，(?=\1\1\1)(\1)只占一位，但是(?=\1\1\1)要求所在位置右侧有三个(\w)匹配到的字符，所以在(?=\1\1\1)这个位置右侧应该有三个字符，只是最后两个不计入最后的匹配结果

以999999999为例，第一个9由(\w)匹配，第二到第六个9由(\1)来匹配，第七个9由(?=\1\1\1)(\1)中最后的(\1)来匹配，而第七、八、九这三个9是用来保证满足(?=\1\1\1)这个条件的

sprc_lcl 2008-12-25

打赏
举报

(?=\1\1\1) 是判断位置1 2 3上的9，不在结果内
(?=\1\1\1)\1 如果匹配9999的话结果是第四位的9

\w(?=\1\1\1)\1 == 99 9(\w) 9(\1)

wackyboy 2008-12-25

打赏
举报

Regex r = new Regex(@"(\w)((?=\1\1\1)(\1))+");

先找到一个字符看他后面时否有三个相同的字符，有取一个，之后再去看后面有没有三个相同的字符有取一个…… 知道倒数第四个看后面有三个相同的字符吗有取一个这样就匹配到倒数第三个字符看倒数第三个后面时候有三个相同的字符因为倒数第三个后面不够三个字符匹配失败如果其中遇到不匹配的情况同样匹配失败然后把前面匹配的字符取道这样九个9 就只取到七个因为后面不够三个

止戈而立 2008-12-25

打赏
举报

[Quote=引用 20 楼 Dic4000 的回复:]
引用 19 楼 min_jie 的回复:
你可以试一下用(?=3)去匹配，看看结果是什么，这样你马上就会明白。

试了,运行后只有一条结果是:Match:Value=,Index=0,Length=0
我认为这个结果匹配了字符串的开端"^",不知道这样理解是否正确?
如果这个结论成立的话,那么它还应该有另外个结果,匹配字符串的终端"$",Match:Value=,Index=1,Length=0
但却没这条结果.
用(?!3)的话,就可以有这条结果,却没第一个结果.
那么这种现象如何…
[/Quote]

应该这样理解：(?=3)在字符串中预搜索匹配的值，字符串0位置的字符是3,匹配成功，由于整个表达式是0宽度的，
那么index=预搜索匹配成功的位置-length＝0－0＝0

(?!3)也是一样的，在字符串位置1匹配，index=位置1－0宽度＝1
可以再比较一下(?=$)

sprc_lcl 2008-12-25

打赏
举报

(?!3)是判断型的
你的new Regex(@"(?!3)"); 和new Regex(@""); 意思差不多吧..
你要改为new Regex(@"\w(?!3)"); 就是你说的效果了

-过客- 2008-12-25

打赏
举报

首先楼主要明白一点，这不是错误结果，而是正确结果

顺道BS一下CSDN，引用图片真麻烦。。。

可以这样认为
string s= "3";
这样一个字符串，包含两个位置，一个字符，两位位置分别是开始的位置0和结束的位置1，一个字符就是“3”

一般(?Exp)这样语法的表达式，是零宽度的，也就是说匹配的结果是不匹配任何字符的，只匹配位置
说得更通俗点，也就是这样的表达式，是在某一位置加了一个附加条件，在这个位置的前或后要满足Exp表达式，这样整个正则表达式才能匹配成功

位置是不互斥的，也就是一个位置，同时可以由多个零宽度的表达式来匹配，而字符同时就只能由一个表达式来匹配

知道了这些，就来看一下楼主这个问题

一个正则表达式，匹配一个源字符串，首先从开始位置，也就是位置0开始尝试匹配，因为(?!3)表示所在位置的右侧不能是字符“3”，而实际上位置0的右侧就是字符“3”，所以位置0是匹配失败的

此时正则引擎会引导正则向前传动，从下一个位置开始尝试匹配，也就是在位置1尝试匹配，因为位置1的右侧不是字符“3”，所以匹配成功，此时整个表达式匹配成功，匹配结果是空字符串，长度当然是0，Index是1

因为(?!3)这样一个正则表达式是零宽度的，所以无论源字符是什么样的，它都会有匹配成功的结果的，用来学习语法规则，写这样的正则还可以，项目应用就千万不要写这样的表达式了

扩展一下，如果正则换成^(?!3)，那结果会如何？是没有任何输出，因为没有匹配成功
首先^从位置0尝试匹配，匹配成功，这时正则表达式的控制权交给(?!3)，在位置0匹配，匹配失败。
因为^只能匹配开始位置，所以稍微做了一点优化的正则引擎，都不会尝试去匹配下一个位置，这时会报告整个正则表达式都匹配失败

Dic4000 2008-12-25

打赏
举报

[Quote=引用 19 楼 min_jie 的回复:]
你可以试一下用(?=3)去匹配，看看结果是什么，这样你马上就会明白。
[/Quote]

试了,运行后只有一条结果是:Match:Value=,Index=0,Length=0
我认为这个结果匹配了字符串的开端"^",不知道这样理解是否正确?
如果这个结论成立的话,那么它还应该有另外个结果,匹配字符串的终端"$",Match:Value=,Index=1,Length=0
但却没这条结果.
用(?!3)的话,就可以有这条结果,却没第一个结果.
那么这种现象如何解释呢?

Dic4000 2008-12-25

打赏
举报

明白了.谢谢lxcnn 和sprc_lcl
还想问一个正向预搜索的另一种形式(?!)的问题.



string s= "3"; 

Regex   r=new Regex(@"(?!3)"); 

foreach (Match m in r.Matches(str))

  {

     Console.WriteLine("Match:Value={0},Index={1},Length={2}", m.Value, m.Index, m.Length);

  }

结果: Match:Value=,Index=1,Length=0

对于这个结果我不能理解.
我的理解是:当刚开始匹配时,是从开始边界"^"进行匹配,发现后面有字符"3",不符合规则,然后从3开始匹配.因为字符"3"后面是结束边界"$",符合规则,所以这时候结果应为Value=3,Index=0,Length=1.
请问我哪里理解错了?

止戈而立 2008-12-25

打赏
举报

[Quote=引用 12 楼 Dic4000 的回复:]
string s= "3";
Regex r=new Regex(@"(?!3)");
foreach (Match m in r.Matches(str))
{
Console.WriteLine("Match:Value={0},Index={1},Length={2}", m.Value, m.Index, m.Length);
}

结果: Match:Value=,Index=1,Length=0

对于这个结果我不能理解.
我的理解是:当刚开始匹配时,是从开始边界"^"进行匹配,发现后面有字符"3",不符合规则,然后从3开始匹配.因为字符"3"后面是结束边界"$",符合规则,所以这时候结果应为Value=3,Index=0,Length=1.
请问我哪里理解错了?
[/Quote]

value不可能是3,你的正则表达式是零宽度的，即使匹配成功，value也是空字符串。
结束边界$满足(?!3)的匹配，因此匹配是成功的，$的index是1。

你可以试一下用(?=3)去匹配，看看结果是什么，这样你马上就会明白。

Dic4000 2008-12-25

打赏
举报

自己顶一下

止戈而立 2008-12-25

打赏
举报

(?!3)是零宽度的。

sprc_lcl 2008-12-25

打赏
举报

不知道，可能是走到1走不下去了吧

Dic4000 2008-12-25

打赏
举报

[Quote=引用 13 楼 sprc_lcl 的回复:]
你要改为new Regex(@"\w(?!3)"); 就是你说的效果了
[/Quote]

这个效果我知道是怎么来的,我想问的这个Match:Value=,Index=1,Length=0 错误的效果怎么来的.明明只有一个字符"3",为什么Index显示的是1?

Dic4000 2008-12-24

打赏
举报

[Quote=引用 6 楼 sprc_lcl 的回复:]
(?=\1\1\1)匹配前面的三位（判断），不是后面.............
所以\w就匹配了第三个9.
[/Quote]
你的意思是，刚开始的时候(?=\1\1\1) 是匹配位置1 2 3上的9吗？但这三个位置上的9应该不会被吃进吧？那这样的话，前面的\w应该匹配位置1上面的9啊，怎么你说\w就匹配了位置3上的9了呢？

sprc_lcl 2008-12-24

打赏
举报

你强，这么晚了，睡了

sprc_lcl 2008-12-24

打赏
举报

(?=\1\1\1)匹配前面的三位（判断），不是后面.............
所以\w就匹配了第三个9.。前面的两个不在匹配范围内，只用来判断了

Dic4000 2008-12-24

打赏
举报

[Quote=引用 3 楼 wuyi8808 的回复:]



(\w)          # 匹配一个单词字符

(             # 分组开始

  (?=\1\1\1)  # 紧接着必须是三个和前面的一样的字符，但不吃进字符

  (\1)        # 匹配一个和前面一样的字符

)+# 匹配一个或多个这样的分组

[/Quote]

谢谢大家，我说说我的理解吧:
以999999999为例，这里有9个9。(\w)匹配第一个9。然后根据规则(?=\1\1\1)发现后面有连续的3个9,但不吃进字符,因此紧接着这个(?=\1\1\1)表达式后面的(\1)匹配第2个9,这个9被吃进。又由于((?=\1\1\1)(\1))是个组,+表示匹配一个或多个这样的分组,所以接着从第3个9查看后面是否又有连续的3个9(即查看3 4 5位置上是否都是9),如果发现了,那么(?=\1\1\1)表达式后面的(\1)匹配第3个9,且吃进这个9,所以接着从第4个9查看后面是否又有连续的3个9(即查看4 5 6位置上是否都是9),行为同上以此类推.

我知道我理解有误，但不知道是哪里出了问题？

烈火蜓蜻 2008-12-24

打赏
举报

string str ="aaa bbbb ffffff 999999999";

第一个匹配字符a 然后他开始判断,除了第一个a的字符串"aa bbbb ffffff 999999999"这个时候,他没有三个a,因此,a没有被匹配,
直到匹配到第1个b的时候, 后面三个连着都是b,因此又匹配到一个b,当他开始判断时,这时的字符串,变成了bb ffffff 999999999,只有2个没有三个,因此b只被匹配到2个,
以此类推,所以才会得出你的那个结果

((?=\1\1\1)) 这个判断是不消耗字符的,他只是判断,