lujd0429 发表于 2012-5-19 14:39:57

正则表达式教程+正则表达式工具

本帖最后由 lujd0429 于 2012-10-31 12:13 编辑

最近自己在学习正则表达式,发现虽然正则表达式不太好学,但是如果找对学习资料的话,就会事半功倍!所以今天在这里分享一些学习和训练正则表达式的资料和软件给大家~                  {:face (239):}




PDF资料:

Regular-Expression-Tutorial.pdf

正则表达式大全.pdf


训练软件:

Match Tracer 2.1(内含注册信息).rar

上面链接已经失效,现重新打包设链。由于使用的是论坛的添加附件功能,可能会被自动收取一定的金额。{:face (198):} 俺也没辙呀~~ 亲

正则表达式学习资料



新添百度云下载链,无需下载金币,地址如下:



正则表达式学习资料

syhw2222 发表于 2012-5-19 18:31:56

谢谢楼主分享!

MicroBlue 发表于 2012-5-19 20:39:20

谢谢分享!!!

藤真 发表于 2012-5-19 20:47:29

谢谢分享,,正需要!!!

9922250 发表于 2012-5-20 00:03:06

不要钱的东西,往死里顶。。。。。。。

dabaiyun 发表于 2012-5-20 12:04:42

谢谢楼主的分享

xms77 发表于 2012-5-20 15:11:07

谢谢楼主分享!

whitehead 发表于 2012-5-20 16:03:40

空白字符这个话题乍看上去很简单,实际上却隐藏着不少陷阱。空白字符包括水平空白字符,如英语单词的间隔,以及各种排版用的为便于阅读而增补的空白字符,等等。

而与此类似的,还有一种垂直空白字符,一般就是指换行符。其实,计算机才不管是水平还是垂直,对它来说,所有的内容都只是字符而已,并无高低上下之分。只不过为方便起见,程序特意指定某个字符作为分隔符,以便将文本划分为更小的单位罢了。

Perl的正则表达式提供了各种精确匹配空白字符的方法。

1. 水平空白字符

在Perl 5.10之前,预先定义好的有关空白字符处理的只有两组。一组是\s,匹配所有类型的空白字符,另一组是\S,匹配除空白字符外的任意字符。使用这种一刀切式的分类,稍有不慎就会导致意料之外的结果。比如下面这段代码,为了把连续几个空白字符替换成单个空格,第一直觉一定会想到用\s+匹配:



my $string = <<'HERE';

This   is   a      line

This   is   another line

And a       final   line

HERE



$string =~ s/\s+/ /g;



由于换行符也属于空白字符,所以上述代码会将换行符也替换成空格,结果变成了单行文本:



This is a line This is another line And a final line



为了避免这种情况,你也许已经想到必须明确指定要替换的字符集合:



$string =~ s/[ \t]+/ /g;



你可能会觉得这样替换掉所有空格和跳格符,应该就没什么问题了吧。可是,Unicode字符集中其他形式的白字符又该如何处理呢?显然,上面这种非常局限的写法不能解决问题。

从Perl 5.10开始,我们就可以用\h字符组匹配任意水平空白字符:



use 5.010;



$string =~ s/\h+/ /g;



现在所有连续的水平空白字符都将被替换为单个空格,而换行符被保留下来。

正如Perl其他字符组一样,\h也有其相反表示,即大写的\H,它会匹配所有水平空白字符以外的任意字符,包括垂直空白字符以及所有非空白字符。

2. 垂直空白字符

和上面只需处理水平空白字符的情景类似,你或许会遇到只需处理垂直空白字符的情况。垂直空白字符可以分为回车符、换行符、进纸符(form feed)、垂直制表符,以及Unicode的行分隔符和段分隔符,等等。比如,想要看看某段文本是否为多行文本,可以用\v匹配任意垂直空白字符:



use 5.010;



if ( $string =~ m/\v/ ) {

say 'Found a multiline string';

}



如果要把多行文本按行切分,也可直接在split中使用\v:



my @lines = split /\v/, $multi_line_string;



和\v对应的是大写的\V,它匹配垂直空白字符以外的任意字符,包括水平空白字符以及所有非空白字符。

3. 行终止符

长期以来,对于行终止符的处理,一直很麻烦。因为,不但有换行符,还有回车符;其组合方式也不一样,有的文件用换行符结束当前行,有的文件用回车符再加上换行符的形式表示换行。事实上,许多网络协议也是采用回车符换行符组合的方式,而Unicode又引入了某些新的换行符。

要是你的任务和行终止符相关,就需要同时处理所有可能的行终止符情况。一般你可能会将一个可选的回车符后跟一个换行符的形式,替换为普通的换行符:



$string =~ s/(?:\r?\n)/\n/g;



然而这种方式的效果并不好,因为\r和\n都属于逻辑字符,但在不同操作系统上对应的字符编码并不完全一致(Mac Classic,说的就是你!)。你或许会想到用字符组的形式,不管这些字符怎么组合出现几个,都能一次匹配:



$string =~ s/[\r\n]{1,2}/\n/g;



不过,这也可能会将\n\n替换为\n,即两个连续的空行会变为一行。更何况,它对Unicode行终止符一样无能为力。

为了处理所有种类的行终止符,我们可以写一条复杂但完备的正则表达式,它包含了各种原本不为所知的行终止符,像垂直制表符0x0B和进纸符0x0C:



$string =~

s/(?>\x0D\x0A?|[\x0A-\x0C\x85\x{2028}\x{2029}])/\n/g;



为了免去这种麻烦,Perl 5.10特意引入的\R字符组,以更简洁的方式表示,但作用则完全相同:

use 5.010;



$string =~ s/\R/\n/g;



现在,所有形式的行终止符都变成简单统一的换行符了。

4. 非换行符

Perl 5.12还引入了一种新的用来表示非换行符的字符组\N。之前,我们可以用.匹配任意非换行符的字符,例如:



if ( $string =~ m/(.+)/ ) { ... }



如果有人添加了/s修饰,这或许是因为不明就里地遵循了“最佳实践”那本书中推荐的做法,使得. 符号突然就能匹配换行符了,从而破坏程序原来的逻辑:



if ( $string =~ m/(.+)/xsm ) { ... } # 乱了!



如果我们只是需要匹配非换行符,那现在可以显式使用\N匹配,不必担心/s来捣乱:



use 5.012;



if ( $string =~ m/(\N+)/ ) { ... }



同字符组\N相反的,并不是对应字符组的补集,而仅仅是一个换行符\n。下次参加Perl掌故大赛(Perl Trivia Challenge)时,可别忘了这点哦。

5. 要点

q   \h匹配水平空白字符。

q   \v匹配垂直空白字符。

q   \N匹配非换行符。

   进纸符简记为\f,对应ASCII的<FF>字符;换行符简记为\n,对应ASCII的<LF>字符;回车符简记为\r,对应ASCII的<CR>字符。——译者注

whitehead 发表于 2012-5-20 16:05:04

从上一楼内容学会了空白字符,存挡

att4579 发表于 2012-5-21 01:24:53

新手学习正需要
谢谢分享

sh-fluke 发表于 2012-5-23 19:52:21

谢谢楼主分享!

masterpcc 发表于 2012-5-25 17:59:24

谢谢分享!!

steven_deng 发表于 2012-8-1 17:58:18

下载不了 可以重新提供吗 谢谢

jarvis 发表于 2012-8-10 11:11:05

链接不行啊

lujd0429 发表于 2012-10-6 07:55:59

本帖最后由 lujd0429 于 2012-10-6 08:03 编辑

回复 13# steven_deng

不好意思,很长时间没上论坛仔细逛了。所以才错漏了你的回帖,按要求帖子中已经添加新的链接,不过采用系统链接会收取一定的金币,能够接受的话,就下载一下吧~{:face (130):}
页: [1] 2 3 4
查看完整版本: 正则表达式教程+正则表达式工具