正则表达式环视问题

hoszone 2008-06-19 08:53:02

String te1 ="shoma s 12345678";
String reg2 ="(?=(\\d\\d\\d)+$)";

System.out.println("reg2:"+te1.replaceFirst(reg2, ","));

输出:reg2:shoma s 12,345678

结果为什么是12,345678 而不是12345,678
主要是不太明白$符号,它是怎么处理的.

String reg22 ="(?<=(\\d\\d\\d)+$)";
System.out.println("reg22:"+te1.replaceFirst(reg22, ","));
为什么输出:
reg22:shoma s 12345678,

thanks....

...全文

424 19 打赏收藏转发到动态举报

写回复

用AI写文章

19 条回复

切换为时间正序

请发表友善的回复…

发表回复

安卓机器人 2011-02-23

打赏
举报

看我分析的正确不：
String te1 ="shoma s 12345678";
String reg2 ="(?=(\\d\\d\\d)+$)";

System.out.println("reg2:"+te1.replaceFirst(reg2, ","));

如果按照匹配应该是这样：
showma s 123 456 78
然后3被","替换，6被“,”替换，但是环视只是消耗位置，不占字符，所以就成了这样
showma s 12,345,678 被替换的字符要往后推，总之是这样理解的，不知道对不对

输出:reg2:shoma s 12,345678

结果为什么是12,345678 而不是12345,678
主要是不太明白$符号,它是怎么处理的.

String reg22 ="(?<=(\\d\\d\\d)+$)";
System.out.println("reg22:"+te1.replaceFirst(reg22, ","));
为什么输出:
reg22:shoma s 12345678,

thanks....

这个是逆序环视，那么他的第一个位置应该在最后，所以逗号也在最后面

qiandongbo 2008-06-19

打赏
举报

谢谢火龙果~前2天才学的正则，很多还没完全弄明白，来的太好了~

火龙果被占用了 2008-06-19

打赏
举报

[Quote=引用 2 楼 jingulang 的回复:]
借楼顺便问问

"^[\\s&&[^\\n]]*$" 怎么解释这是匹配代码空行的正则

我没读懂
[/Quote]

^[\\s&&[^\\n]]*$

\\s 表示：[ \t\n\x0B\f\r]，而 [^\\n] 表示非 \n 的所有字符，&& 表示并集

[\\s&&[^\\n]] 表示的是除去 \n 之外 \\s 中还剩下的字符串，那就是 [ \t\x0B\f\r]

^[\\s&&[^\\n]]* 表示在开头和结尾处匹配非 \n 的空白字符（或者说啥都没有），我们就
可以认为这是个空行。

表达式必须加上多行标志，以使 ^ $ 表示行首和行尾，不加的话表示开头和结尾，表达式应改成：
(?m)^[\\s&&[^\\n]]*$

或者在使用 Pattern 编译加上标志：
Pattern pattern = Pattern.compile("^[\\s&&[^\\n]]*$", Pattern.MULTILINE);

=========================================================================================

[Quote=引用 15 楼 qiandongbo 的回复:]
粗粗的问下?=是什么意思啊，我那个没看明白
[/Quote]

(?=) 表示字符缝隙后得有什么字符，比如：表达式 a(?=b) 能匹配 ab 但不能匹配 ac，
因为限定 a 的后面只能是 b，而 (?=b) 表示 ab 之间的缝隙。

hoszone 2008-06-19

打赏
举报

明白了,谢谢,火龙果 ......

qiandongbo 2008-06-19

打赏
举报

粗粗的问下?=是什么意思啊，我那个没看明白

jingulang 2008-06-19

打赏
举报

楼上讲的明白~楼上讲的明白~

火龙果被占用了 2008-06-19

打赏
举报

正则表达式的匹配是从左边开始的啊，当然先匹配到 2 和 3 之间了。

abc 12345678 的匹配过程如下：

(?=(\\d\\d\\d)+$) 以下简称 A

(\\d\\d\\d)+$ 以下简称 B

1：一个一个地移，直到移到 1 的前面的缝隙（因为后面是数字了），这时环视后面的字符串 12345678（因为 A 的环视
结构带有 $ 因此需要环视后面所有的字符串），可以看到 12345678 并不能与 B 进行匹配（因为需要数字的个数是
3 的倍数），这时匹配指示器往后移。
2：移到 1 和 2 之间，再环视后面的字符串 2345678 这时也不能与 B 进行匹配，这时匹配指示器再往后移。
3：移到 2 和 3 之间，再环视后面的字符串 345678 这时很好，能与 B 进行匹配了，使用替换在 2 和 3 之间插入逗号，
完成后匹配指示器再往后移。
4：移到 3 和 4 之间，再环视后面的字符串 45678 这时也不能与 B 进行匹配，这时匹配指示器再往后移。
4：移到 4 和 5 之间，再环视后面的字符串 5678 这时也不能与 B 进行匹配，这时匹配指示器再往后移。
5：移到 5 和 6 之间，再环视后面的字符串 678 能与 B 进行匹配了，使用替换在 5 和 6 之间插入逗号，完成后匹配指示
器再往后移。
6：继续如上步骤，直到匹配指示器指向 8 的后面，这时没有字符了，匹配完成。

hoszone 2008-06-19

打赏
举报

bao110908

我正在看呢本书,感谢你的解释,我因为不太明白,所以把它拆分了来请教大家

hoszone 2008-06-19

打赏
举报

恩,我明白你的意思,全部的时候是12,345,678
但是我就是不太明白为什么他第一次的是在2和3之间,而不是在5和6之间
或者说他是怎么匹配的,过程是什么?

感谢你的回复.....

火龙果被占用了 2008-06-19

打赏
举报

$ 在未指定 Pattern.MULTILINE 参数或者 (?m) 内嵌表达式时，表示的是输入字符串的结尾。
如果指定了 Pattern.MULTILINE 参数或者 (?m) 时，表示的是输入字符串中每一行的结尾。

另：^ 与 $ 类似，表示开头或者是行首。

跟楼上所说的那样，你采用的是 replaceFirst，这个只能替换一个，并不能替换所有的。

另外，你的这个表达式还有一点点问题：

1，当字符串为“shoma s 123456789”时，会被换成“shoma s ,123,456,789”，这应该不会是想要的结果；
2，当字符串为“shoma s 123456789 abc”时，采用这个表达式不能进行匹配。

改进一下后的代码：

import java.util.regex.Matcher;

import java.util.regex.Pattern;



public class Test {



    public static void main(String[] args) {

        String[] strs ={

                "shoma s 1",

                "shoma s 12",

                "shoma s 123",

                "shoma s 1234",

                "shoma s 12345",

                "shoma s 123456",

                "shoma s 1234567",

                "shoma s 12345678",

                "shoma s 123456789",

                "shoma s 1234567890",

                "shoma s 1 aa",

                "shoma s 12 aa",

                "shoma s 123 aa",

                "shoma s 1234 aa",

                "shoma s 12345 aa",

                "shoma s 123456 aa",

                "shoma s 1234567 aa",

                "shoma s 12345678 aa",

                "shoma s 123456789 aa",

                "shoma s 1234567890 aa",

                "shoma s 1aa",

                "shoma s 12aa",

                "shoma s 123aa",

                "shoma s 1234aa",

                "shoma s 12345aa",

                "shoma s 123456aa",

                "shoma s 1234567aa",

                "shoma s 12345678aa",

                "shoma s 123456789aa",

                "shoma s 1234567890aa",

                "123 1234 abc 12345 5 aa 123456 1234567 12345678aa"

            };

        String regex ="(?<=\\d)(?=(\\d\\d\\d)+(?!\\d))";

        // 多个字符串采用如下方式替换，可以节省正则表达式编译的时间

         Pattern pattern = Pattern.compile(regex);

        Matcher matcher = pattern.matcher("");

        for(int i = 0; i < strs.length; i++) {

            String str = matcher.reset(strs[i]).replaceAll(",");

            System.out.println(str);

        }

        // 单个字符串采用如下方式替换

         // str = str.replaceAll(regex, ",");

    }

}

anqini 2008-06-19

打赏
举报

[Quote=引用 6 楼 ssh000 的回复:]
anqini
=========
String reg2 ="(?=(\\d\\d\\d)+$)";

不太明白第一次匹配为什么在2和3之间,为什么不在5和6之间呢
[/Quote]
你用的是replaceFirst，只把第一个匹配的换掉！而不是全部的，你换成replaceAll看看，就知道了

jingulang 2008-06-19

打赏
举报

另外楼主的那个正则

(\\d\\d\\d)+ 代表 3个数字出现1次或多次是不是三个数三个数的匹配

jingulang 2008-06-19

打赏
举报

[Quote=引用 4 楼 anqini 的回复:]
引用 2 楼 jingulang 的回复:
借楼顺便问问

"^[\\s&&[^\\n]]*$" 怎么解释这是匹配代码空行的正则

我没读懂

就是，\\s并且不是换行符，这样的0次或者多次！
\\s：空白字符：[ \t\n\x0B\f\r]
[/Quote]

主要是没明白^和$符号，以XXX开头和以XXX结尾，它是怎么断句的

是匹配以（\\s并不是\\n）零次或多次开头
还是匹配以（\\s并不是\\n）零次或多次结尾？

另外没明白换行符属于啥没概念啊

hoszone 2008-06-19

打赏
举报

anqini
=========
String reg2 ="(?=(\\d\\d\\d)+$)";

不太明白第一次匹配为什么在2和3之间,为什么不在5和6之间呢

amethystic 2008-06-19

打赏
举报

这个是正向预查。它不消耗字符，和$,^一样只匹配一个位置，所以在这里它就匹配了2和3中间的那个位置，所以结果就是在2和3中间加入了一个逗号。

anqini 2008-06-19

打赏
举报

[Quote=引用 2 楼 jingulang 的回复:]
借楼顺便问问

"^[\\s&&[^\\n]]*$" 怎么解释这是匹配代码空行的正则

我没读懂
[/Quote]
就是，\\s并且不是换行符，这样的0次或者多次！
\\s：空白字符：[ \t\n\x0B\f\r]

anqini 2008-06-19

打赏
举报

[Quote=引用楼主 ssh000 的帖子:]
String te1 ="shoma s 12345678";
String reg2 ="(?=(\\d\\d\\d)+$)";

System.out.println("reg2:"+te1.replaceFirst(reg2, ","));

输出:reg2:shoma s 12,345678

结果为什么是12,345678 而不是12345,678
主要是不太明白$符号,它是怎么处理的.

String reg22 ="(? <=(\\d\\d\\d)+$)";
System.out.println("reg22:"+te1.replaceFirst(reg22, ","));
为什么输出:
reg22:shoma s 12345678,

thanks....
[/Quote]
第一：因为你换的是第一个匹配，replaceFirst
因为你匹配的是(\\d\\d\\d)+$，后面允许出现这种格式的，12 345 678，因为2和3之间的index满足第一个匹配这个匹配器~！所以这样的，假如你换用replaceAll，就能看出来了

第二：你的匹配其找的是前面允许出现的格式，因为前面有shoma s 这些英文字母，所以不匹配，更不能replaceFirst了！

jingulang 2008-06-19