您当前的位置:亚洲城娱乐官网 > 

正则表达式/UltraEdit正则表达式介绍及实例分享

作者: ● 时间:2017-12-01 12:20:44 ● 来源:

 

Ⅰ : UltraEdit正则表达式介绍及实例分享

前几天,有个将Excel中的数据导入到数据库中的需求,原本想到用程序读取Excel中的数据并存储到数据库中,但经一哥们的提醒,说用 EditPlus或UltraEdit这样的工具直接将数据拼凑成SQL插入语句更容易方便,也不用写任何代码,由于我本人使用UltraEdit,故考 虑用UltraEdit的正则表达式来做这件事,下面是这样的一个过程。

假设导入的表字段为:name,email, introduce,在Excel中的数据对应的也是这样的字段,值得注意的是:在excel中的数据,比如introduce不能换行,不然的话语句拼凑后会执行会出错。

要拼凑的例子数据如下(从Excel中拷贝并粘贴到UltraEdit中):

张三                            zhangsan@zihou.com              "坐于2004年5月经教育部批准升格为普通本科院校。 " 李四                   lisi@zihou.com                           最专业的图文视频体育赛事直播、报道和‘专家'点评。 

各字段值之间以一个或多个tab键分隔着,操作步骤:

替换按Ctrl+R

1、  先将单引号、双引号之类的字符去掉,这一步不用正则,简单替换即可。

2、  去掉空行:用正则%[ ^t]++^p替换为空字符串,另外,还有^p$也可以,不过在替换的时候,^p$每次只能替换一个空行。

3、  在每行的最前面增加:insert into test(name,email,introduce)values(‘,在UltraEdit正则中,%是表示行首,如下图:

4、  替换掉tab键

5、  最后在行尾加入’);

OK,大功告成!这样就拼凑成了正常的SQL插入语句了,感觉是不是很快很容易?

如何学习UltraEdit正则用法?可以通过以下两个方面:

1、  从网上搜些这方面的介绍资料

2、  通过UltraEdit的帮助文档来进行学习

UltraEdit的帮助文档有两方面,一方面是其chm格式的文档、另一方面是其官网的文档。

官网的文档进入方式为:菜单帮助->快速入门指南,在打开的窗口中,点击任一链接都会到其官网帮助文档页面,当然了,如果你到这里了,也可以直接点击下面的链接:

chm格式的文档进入方式为:

菜单帮助->使用帮助,或帮助->索引均可,如下图:

在左侧输入“正则表达式”进行查找,就会弹出右侧的窗口,看到有很多的使用介绍吧?你可以选择感兴趣的进去。

下面是从UltraEdit文档中摘录的语法说明

正则表达式 (UltraEdit 语法):

符号 功能
% 匹配行首 – 表示搜索字符串必须在行首,但不包括任何选定的结果字符中的行终止字符。
$ 匹配行尾 – 表示搜索字符串必须在行尾,但不包括任何选定的结果字符中的行终止字符。
? 匹配任何除换行符的字符。
* 匹配任何除换行符外所出现的任意数量的字符。
+ 匹配一个或多个前面的字符/表达式。必须找到至少一个出现的字符。不匹配重复的换行符。
++ 0 次或多次匹配前面的字符/表达式。不匹配重复的换行符。
^b 匹配一个分页符。
^p 匹配一个换行符 (CR/LF) (段落) (DOS 文件)
^r 匹配一个换行符 (仅 CR) (段落) (MAC 文件)
^n 匹配一个换行符 (仅 LF) (段落) (UNIX 文件)
^t 匹配一个制表符
[ ] 匹配任何括号中的单个字符或范围
^{A^}^{B^} 匹配表达式 A 或 B
^ 忽略其后的正则表达式字符
^(*^) 在表达式加上括号或标签在替换命令中使用。正则表达式中可以有 9 个表达式标签,数字根据它们在正则表达式中的次序确定数字。

相应的替换表达式是 ^x,x 的范围是 1-9。例如: 如果 ^(h*o^) ^(f*s^) 匹配“hello folks”,那么^2 ^1 表示将用“folks hello”替换它。

注意 – ^ 这里涉及的字符“^”不是控制键 + 值。

例如:

m?n 匹配“man”、“men”、“min”,但不匹配“moon”。

t*t 匹配“test”、“tonight”和“tea time”中的“tea t”部分,但不匹配“tea

time” (“tea ”和“time”之间有换行)。

Te+st 匹配“test”、“teest”、“teeeest”等,但不匹配“tst”。

[aeiou] 匹配每个元音小写字母

[,.?] 匹配文字“,”、“.”或“?”。

[0-9a-z] 匹配任何数字或小写字母

[~0-9] 匹配除数字外的任何字符 (~ 表示不匹配其后的内容)

你可以搜索象下面一样的表达式 A 或 B:

“^{John^}^{Tom^}

这将搜索 John 或 Tom。在两个表达式之间应该没有任何其它内容。

你可以在同一次搜索象下面一样组合 A 或 B 和 C 或 D:

“^{John^}^{Tom^} ^{Smith^}^{Jones^}”

这将搜索后面跟随了 Smith 或 Jones 的 John 或 Tom。

下面的表显示“Unix”样式的正则表达式语法。

正则表达式 (Unix 语法):

符号 功能
表示下一个字符有特殊含义。“n”表示匹配字符“n”,“n”匹配一换行符。看下面的例子 (d、f、n 等)。
^ 匹配/停驻行首。
$ 匹配/停驻行尾。
* 匹配前面的字符 0 次或多次。
+ 匹配前面的字符一次或多次。不匹配重复的换行符。
. 匹配任何除换行符之外的单个字符。不匹配重复的换行符。
(表达式) 在表达式加上括号或标签在替换命令中使用。正则表达式中可以有 9 个表达式标签,数字根据它们在正则表达式中的次序确定数字。

相应的替换表达式是 ^x,x 的范围是 1-9。例如: 如果 ^(h*o^) ^(f*s^) 匹配“hello folks”,那么^2 ^1 表示将用“folks hello”替换它。

[xyz] 字符集,匹配任何括号间的字符。.
[^xyz] 排除字符集。匹配任何不在括号间的字符。
d 匹配一个数字字符。等同于 [0-9]。
D 匹配一个非数字字符,等同于 [^0-9]。
f 匹配一个换页符。
n 匹配一个换行符。
r 匹配一个回车符。
s 匹配任何包含空格、制表符等不会显示的字符,但不匹配换行符。
S 匹配任何非空白区域 (显示字符) 的字符,但不匹配换行符。
t 匹配一个制表符。
v 匹配一个垂直制表符。
w 匹配任何包含下划线的词语。
W 匹配任何非词语的字符。
p 匹配 CR/LF (等同于 rn),用来匹配 DOS 行终止符。

注意 – ^ 这里所涉及的字符“^”不是控制键 + 值。

例如:

m.n 匹配“man”、“men”、“min”,但不匹配“moon”。

Te+st 匹配“test”、“teest”、“teeeest”等,但不匹配“tst”。

Te*st 匹配“test”、“teest”、“teeeest”等,还有“tst”。

[aeiou] 匹配每个元音小写字母

[,.?] 匹配文字“,”、“.”或“?”。

[0-9a-z] 匹配任何数字或小写字母

[^0-9] 匹配除数字外的任何字符 (~ 表示不匹配其后的内容)

你可以象下面一样的表达式 A 或 B 进行搜索:

“(John|Tom)”

这将搜索 John 或 Tom。在两个表达式之间应该没有任何其它内容。

你可以在同一次搜索象下面一样组合 A 或 B 和 C 或 D:

“(John|Tom) (Smith|Jones)”

这将搜索 Smith 或 Jones 以及跟随在后面的 John 或 Tom。

如果在查找/替换中没有选择使用正则表达式,在替换对象中下列特殊字符同样有效:

符号 功能
^^ 匹配字符“^”
^s 表示活动文件窗口中选定 (加亮) 的文字。
^c 表示剪贴表的内容。
^b 匹配一个分页符。
^p 匹配一个换行符 (CR/LF) (段落) (DOS 文件)
^r 匹配一个换行符 (仅 CR) (段落) (MAC 文件)
^n 匹配一个换行符 (仅 LF) (段落) (UNIX 文件)
^t 匹配一个制表符

注意 – ^ 这里所涉及的字符“^”不是控制键 + 值。

Ⅱ : 正则表达式规则"[A-z]"与"[A-Za-z]"的差别

当我们要用正则表达式过滤出26个大小写英文字母时,会用到"[A-z]"或"[A-Za-z]"的过滤条件。如果认为这两个写法是一致的,那就要出岔子了。

请看ASCII字符表

八进制十六进制十进制字符八进制十六进制十进制字符
00000nul1004064@
01011soh1014165A
02022stx1024266B
03033etx1034367C
04044eot1044468D
05055enq1054569E
06066ack1064670F
07077bel1074771G
10088bs1104872H
11099ht1114973I
120a10nl1124a74J
130b11vt1134b75K
140c12ff1144c76L
150d13er1154d77M
160e14so1164e78N
170f15si1174f79O
201016dle1205080P
211117dc11215181Q
221218dc21225282R
231319dc31235383S
241420dc41245484T
251521nak1255585U
261622syn1265686V
271723etb1275787W
301824can1305888X
311925em1315989Y
321a26sub1325a90Z
331b27esc1335b91[
341c28fs1345c92\
351d29gs1355d93]
361e30re1365e94^
371f31us1375f95_
402032sp1406096'
412133!1416197a
422234"1426298b
432335#1436399c
442436$14464100d
452537%14565101e
462638&14666102f
472739`14767103g
502840(15068104h
512941)15169105i
522a42*1526a106j
532b43+1536b107k
542c44,1546c108l
552d45-1556d109m
562e46.1566e110n
572f47/1576f111o
603048016070112p
613149116171113q
623250216272114r
633351316373115s
643452416474116t
653553516575117u
663654616676118v
673755716777119w
703856817078120x
713957917179121y
723a58:1727a122z
733b59;1737b123{
743c60<1747c124|
753d61=1757d125}
763e62>1767e126~
773f63?1777f127del

注意A-z段的ASCII字符,红色的字符[\]^_&#39;是夹在Z和a之间的。也就是说A-z,不但包含了26个大小写英文字符,还包含了几个符号字符。要是规则是用于验证电子邮件的,那么“..\..\"这样的字符串可是会通过的哦!

也就是说只有A-Za-z规则才是真正的26个大小写英文字符过滤规则。(www.shuoshuow.cn]大家在使用时千万别麻痹大意哦

摘自 paiooo的专栏

Ⅲ : NSRegularExpression iOS自带的正则表达式

以前做验证邮箱,电话号码的时候通常用第三方的正则表达式或者NSPredicate(点这里查看以前的文章),在后期,苹果推出了自己的正则表达式来提供给开发者调用,很方便,功能也强大.

具体可以查看官方文档,包括如何书写进行匹配的正则表达式例子,这里我就不多加详述了,因为本人看那一堆符号好烦.....只好直接求助于谷歌了,下面只给出几个常用的.

#define KPhoneRegex @"\\d{3}-\\d{8}|\\d{3}-\\d{7}|\\d{4}-\\d{8}|\\d{4}-\\d{7}|1+[358]+\\d{9}|\\d{8}|\\d{7}"#define KWebRegex @"((http[s]{0,1}|ftp)://[a-zA-Z0-9\\.\\-]+\\.([a-zA-Z]{2,4})(:\\d+)?(/[a-zA-Z0-9\\.\\-~!@#$%^&*+?:_/=<>]*)?)|(www.[a-zA-Z0-9\\.\\-]+\\.([a-zA-Z]{2,4})(:\\d+)?(/[a-zA-Z0-9\\.\\-~!@#$%^&*+?:_/=<>]*)?)"#define KWebOtherRegex @"http+:[^\\s]*"#define KEmailRegex @"[A-Z0-9a-z._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}"
/** 1. 返回所有匹配结果的集合(适合,从一段字符串中提取我们想要匹配的所有数据) * - (NSArray *)matchesInString:(NSString *)string options:(NSMatchingOptions)options range:(NSRange)range; 2. 返回正确匹配的个数(通过等于0,来验证邮箱,电话什么的,代替NSPredicate) * - (NSUInteger)numberOfMatchesInString:(NSString *)string options:(NSMatchingOptions)options range:(NSRange)range; 3. 返回第一个匹配的结果。[www.shuoshuow.cn]注意,匹配的结果保存在 NSTextCheckingResult 类型中 * - (NSTextCheckingResult *)firstMatchInString:(NSString *)string options:(NSMatchingOptions)options range:(NSRange)range; 4. 返回第一个正确匹配结果字符串的NSRange * - (NSRange)rangeOfFirstMatchInString:(NSString *)string options:(NSMatchingOptions)options range:(NSRange)range; 5. block方法 * - (void)enumerateMatchesInString:(NSString *)string options:(NSMatchingOptions)options range:(NSRange)range usingBlock:(void (^)(NSTextCheckingResult *result, NSMatchingFlags flags, BOOL *stop))block; *//** * enum { NSRegularExpressionCaseInsensitive = 1 << 0, // 不区分大小写的 NSRegularExpressionAllowCommentsAndWhitespace = 1 << 1, // 忽略空格和# - NSRegularExpressionIgnoreMetacharacters= 1 << 2, // 整体化 NSRegularExpressionDotMatchesLineSeparators= 1 << 3, // 匹配任何字符,包括行分隔符 NSRegularExpressionAnchorsMatchLines = 1 << 4, // 允许^和$在匹配的开始和结束行 NSRegularExpressionUseUnixLineSeparators = 1 << 5, // (查找范围为整个的话无效) NSRegularExpressionUseUnicodeWordBoundaries= 1 << 6// (查找范围为整个的话无效) }; typedef NSUInteger NSRegularExpressionOptions; */// 下面2个枚举貌似都没什么意义,除了在block方法中,一般情况下,直接给0吧/** * enum { NSMatchingReportProgress = 1 << 0, NSMatchingReportCompletion = 1 << 1, NSMatchingAnchored = 1 << 2, NSMatchingWithTransparentBounds = 1 << 3, NSMatchingWithoutAnchoringBounds = 1 << 4 }; typedef NSUInteger NSMatchingOptions; *//** 此枚举值只在5.block方法中用到 * enum { NSMatchingProgress = 1 << 0, NSMatchingCompleted = 1 << 1, NSMatchingHitEnd = 1 << 2, NSMatchingRequiredEnd= 1 << 3, NSMatchingInternalError = 1 << 4 }; typedef NSUInteger NSMatchingFlags; */// 测试字符串,把里面的电话号码解析出来NSString *urlString = @"哈哈哈哈呵呵呵s15279107723在这里啊啊啊啊s15279107716";NSError *error = NULL;// 根据匹配条件,创建了一个正则表达式(类方法,实例方法类似)NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:KPhoneRegex options:NSRegularExpressionCaseInsensitive error:&error];if (regex != nil) {// 3.....NSTextCheckingResult *firstMatch = [regex firstMatchInString:urlString options:0range:NSMakeRange(0, [urlString length])];if (firstMatch) {NSRange resultRange = [firstMatch rangeAtIndex:0];//从urlString中截取数据NSString *result = [urlString substringWithRange:resultRange];NSLog(@"result = %@",result);}// 2.....NSUInteger number = [regex numberOfMatchesInString:urlString options:0 range:NSMakeRange(0, [urlString length])];NSLog(@"number = %ld",number);// 5.....(坑爹的返回第一个匹配结果)[regex enumerateMatchesInString:urlString options:0 range:NSMakeRange(0, [urlString length]) usingBlock:^(NSTextCheckingResult *result, NSMatchingFlags flags, BOOL *stop) {NSLog(@"---%@",NSStringFromRange([result range]));if (flags != NSMatchingInternalError) {NSRange firstHalfRange = [result rangeAtIndex:0];if (firstHalfRange.length > 0) {NSString *resultString1 = [urlString substringWithRange:firstHalfRange];NSLog(@"result1 = %@",resultString1);}}*stop = YES;}];}// 替换掉你要匹配的字符串NSString *reString = [regex stringByReplacingMatchesInString:urlStringoptions:0range:NSMakeRange(0, [urlString length])withTemplate:@"(我就是替换的值)"];NSLog(@"reString = %@",reString);// 还有2个方法大家可以去尝试看看// 1.NSMutableArray *oneArray = [self _matchLinkWithStr:urlString withMatchStr:KPhoneRegex];for (NSString *phone in oneArray) {NSLog(@"phone = %@",phone);}
// 1.....- (NSMutableArray *)_matchLinkWithStr:(NSString *)str withMatchStr:(NSString *)matchRegex;{NSError *error = NULL;NSRegularExpression *reg = [NSRegularExpression regularExpressionWithPattern:matchRegex options:NSRegularExpressionCaseInsensitive error:&error];NSArray *match = [reg matchesInString:str options:NSMatchingReportCompletion range:NSMakeRange(0, [str length])];NSMutableArray *rangeArr = [NSMutableArray array];// 取得所有的NSRange对象if(match.count != 0){for (NSTextCheckingResult *matc in match){NSRange range = [matc range];NSValue *value = [NSValue valueWithRange:range];[rangeArr addObject:value];}}// 将要匹配的值取出来,存入数组当中__block NSMutableArray *mulArr = [NSMutableArray array];[rangeArr enumerateObjectsUsingBlock:^(id obj, NSUInteger idx, BOOL *stop) {NSValue *value = (NSValue *)obj;NSRange range = [value rangeValue];[mulArr addObject:[str substringWithRange:range]];}];return mulArr;}
@结果:

Ⅳ : 正则表达式及RegularExpressionValidator正则代码

正则表达式及RegularExpressionValidator正则代码 匹配中文字符的正则表达式: [u4e00-u9fa5]

评注:匹配中文还真是个头疼的事,有了这个表达式就好办了

匹配双字节字符(包括汉字在内):[^x00-xff]

评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

匹配空白行的正则表达式:ns*r

评注:可以用来删除空白行

匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?|<.*? />

评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式:^s*|s*$

评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式

匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 评注:表单验证时很实用

匹配网址URL的正则表达式:[a-zA-z]+://[^s]*

评注:网上流传的版本功能很有限,上面这个基本可以满足需求

匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

评注:表单验证时很实用

匹配国内电话号码:d{3}-d{8}|d{4}-d{7}

评注:匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号:[1-9][0-9]{4,}

评注:腾讯QQ号从10000开始

匹配中国邮政编码:[1-9]d{5}(?!d)

评注:中国邮政编码为6位数字

匹配身份证:d{15}|d{18}

评注:中国的身份证为15位或18位

匹配ip地址:d+.d+.d+.d+

评注:提取ip地址时有用

匹配特定数字:

^[1-9]d*$ //匹配正整数

^-[1-9]d*$ //匹配负整数

^-?[1-9]d*$ //匹配整数

^[1-9]d*|0$ //匹配非负整数(正整数 + 0)

^-[1-9]d*|0$ //匹配非正整数(负整数 + 0)

^[1-9]d*.d*|0.d*[1-9]d*$ //匹配正浮点数

^-([1-9]d*.d*|0.d*[1-9]d*)$ //匹配负浮点数

^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$ //匹配浮点数

^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$ //匹配非负浮点数(正浮点数 + 0) ^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$ //匹配非正浮点数(负浮点数 + 0)

评注:处理大量数据时有用,具体应用时注意修正

匹配特定字符串:

^[A-Za-z]+$ //匹配由26个英文字母组成的字符串

^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串

^[a-z]+$ //匹配由26个英文字母的小写组成的字符串

^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串

^w+$ //匹配由数字、26个英文字母或者下划线组成的字符串

在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下:

只能输入数字:“^[0-9]*$”

只能输入n位的数字:“^d{n}$”

只能输入至少n位数字:“^d{n,}$”

只能输入m-n位的数字:“^d{m,n}$”

只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)$”

只能输入有两位小数的正实数:“^[0-9]+(.[0-9]{2})?$”

只能输入有1-3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?$”

只能输入非零的正整数:“^+?[1-9][0-9]*$”

只能输入非零的负整数:“^-[1-9][0-9]*$”

只能输入长度为3的字符:“^.{3}$”

只能输入由26个英文字母组成的字符串:“^[A-Za-z]+$”

只能输入由26个大写英文字母组成的字符串:“^[A-Z]+$”

只能输入由26个小写英文字母组成的字符串:“^[a-z]+$”

只能输入由数字和26个英文字母组成的字符串:“^[A-Za-z0-9]+$” 只能输入由数字、26个英文字母或者下划线组成的字符串:“^w+$”

验证用户密码:“^[a-zA-Z]w{5,17}$”正确格式为:以字母开头,长度在6-18之间,只能包含字符、数字和下划线。

验证是否含有^%&',;=?$"等字符:“[^%&',;=?$x22]+”

只能输入汉字:“^[u4e00-u9fa5],{0,}$”

验证Email地址:“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”

Ⅴ : 正则表达式:正则表达式-起源,正则表达式-概念

正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。

正则表达式_正则表达式 -起源

[www.shuoshuow.cn)正则表达式

的“鼻祖”或许可一直追溯到科学家对人类神经系统工作原理的早期研究。美国新泽西州的Warren McCulloch和出生在美国底特律的Walter Pitts这两位神经生理方面的科学家,研究出了1种用数学方式来描述神经网络的新方法,他们创造性地将神经系统中的神经元描述成了小而简单的自动控制元,从而作出了一项伟大的工作革新。

在1956 年,出生在被马克·吐温(Mark Twain)称为“美国最美丽的城市之一”的哈特福德市的一位名叫Stephen Kleene的数学科学家,他在Warren McCulloch和Walter Pitts早期工作的基础之上,发表了一篇题目是《神经网事件的表示法》的论文,利用称之为正则集合的数学符号来描述此模型,引入了正则表达式的概念。正则表达式被作为用来描述其称之为“正则集的代数”的1种表达式,因而采用了“正则表达式”这个术语。

之后一段时间,人们发现可以将这一工作成果应用于其他方面。Ken Thompson就把这一成果应用于计算搜索算法的一些早期研究,Ken Thompson是 Unix的主要发明人,也就是大名鼎鼎的Unix之父。Unix之父将此符号系统引入编辑器QED,然后是Unix上的编辑器ed,并最终引入grep。Jeffrey Friedl 在其着作《Mastering Regular Expressions (2nd edition)》(中文版译作:精通正则表达式,已出到第三版)中对此作了进1步阐述讲解,如果你希望更多了解正则表达式理论和历史,推荐你看看这本书。

自此以后,正则表达式被广泛地应用到各种UNIX或类似于UNIX的工具中,如大家熟知的Perl。Perl的正则表达式源自于Henry Spencer编写的regex,之后已演化成了pcre(Perl兼容正则表达式Perl Compatible Regular Expressions),pcre是1个由Philip Hazel开发的、为很多现代工具所使用的库。正则表达式的第1个实用应用程序即为Unix中的 qed 编辑器。

然后,正则表达式在各种计算机语言或各种应用领域得到了广大的应用和发展,演变成为计算机技术森林中的一只形神美丽且声音动听的百灵鸟。

以上是关于正则表达式的起源和发展的历史描述,如今正则表达式在基于文本的编辑器和搜索工具中依然占据着1个非常重要的地位。

在最近的六十年中,正则表达式逐渐从模糊而深奥的数学概念,发展成为在计算机各类工具和软件包应用中的主要功能。不仅仅众多UNIX工具支持正则表达式,近二十年来,在WINDOWS的阵营下,正则表达式的思想和应用在大部分 Windows 开发者工具包中得到支持和嵌入应用!从正则式在Microsoft Visual Basic 6 或 Microsoft VBScript到.NET Framework中的探索和发展,WINDOWS系列产品对正则表达式的支持发展到无与伦比的高度,几乎所有 Microsoft 开发者和所有.NET语言都可以使用正则表达式。如果你是一位接触计算机语言的工作者,那么你会在主流操作系统(*nix[Linux, Unix等]、Windows、HP、BeOS等)、主流的开发语言(delphi、Scala、PHP、C#、Java、C++、Objective-c、Swift、VB、Javascript、Ruby以及Python等)、数以亿万计的各种应用软件中,都可以看到正则表达式优美的舞姿。

正则表达式_正则表达式 -概念

正则表达式是对字符串操作的1种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成1个“规则字符串”,这个“规则字符串”用来表达对字符串的1种过滤逻辑。

给定1个正则表达式和另1个字符串,我们可以达到如下的目的:

1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);

2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。

正则表达式的特点是:

1. 灵活性、逻辑性和功能性非常的强;

2. 可以迅速地用极简单的方式达到字符串的复杂控制。

3. 对于刚接触的人来说,比较晦涩难懂。

由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。

正则表达式_正则表达式 -引擎分类

正则引擎主要可以分为2大类:1种是DFA,1种是NFA。这2种引擎都有了很久的历史(至今二十多年),当中也由这2种引擎产生了很多变体!于是POSIX的出台产生规范了不必要变体的继续产生。这样一来,主流的正则引擎又分为三类:一、DFA,二、传统型NFA,三、POSIX NFA。

DFA 引擎在线性时状态下执行,因为它们不要求回溯(并因此它们永远不测试相同的字符两次)。DFA 引擎还可以确保匹配最长的可能的字符串。但是,因为 DFA 引擎只包含有限的状态,所以它不能匹配具有反向引用的模式;并且因为它不构造显示扩展,所以它不可以捕获子表达式。

传统的 NFA 引擎运行所谓的“贪婪的”匹配回溯算法,以指定顺序测试正则表达式的所有可能的扩展并接受第1个匹配项。因为传统的 NFA 构造正则表达式的特定扩展以获得成功的匹配,所以它可以捕获子表达式匹配和匹配的反向引用。但是,因为传统的 NFA 回溯,所以它可以访问完全相同的状态多次(如果通过不同的路径到达该状态)。因此,在最坏情况下,它的执行速度可能非常慢。因为传统的 NFA 接受它找到的第1个匹配,所以它还可能会导致其他(可能更长)匹配未被发现。

POSIX NFA 引擎与传统的 NFA 引擎类似,不同的一点在于:在它们可以确保已找到了可能的最长的匹配之前,它们将继续回溯。因此,POSIX NFA 引擎的速度慢于传统的 NFA 引擎;并且在使用 POSIX NFA 时,您恐怕不会愿意在更改回溯搜索的顺序的情况下来支持较短的匹配搜索,而非较长的匹配搜索。

使用DFA引擎的程序主要有:awk,egrep,flex,lex,MySQL,Procmail等;

使用传统型NFA引擎的程序主要有:GNU Emacs,Java,ergp,less,more,.NET语言,PCRE library,Perl,PHP,Python,Ruby,sed,vi;

使用POSIX NFA引擎的程序主要有:mawk,Mortice Kern Systems’ utilities,GNU Emacs(使用时可以明确指定);

也有使用DFA/NFA混合的引擎:GNU awk,GNU grep/egrep,Tcl。

举例简单地说明NFA与DFA工作的区别:

比如有字符串this is yansen’s blog,正则表达式为 /ya(msen|nsen|nsem)/ (不要在乎表达式怎么样,这里只是为了说明引擎间的工作区别)。 NFA工作方式如下,先在字符串中查找 y 然后匹配其后是否为 a ,如果是 a 则继续,查找其后是否为 m 如果不是则匹配其后是否为 n (此时淘汰msen选择支)。然后继续看其后是否依次为 s,e,接着测试是否为 n ,是 n 则匹配成功,不是则测试是否为 m 。为什么是 m ?因为 NFA 工作方式是以正则表达式为标准,反复测试字符串,这样同样1个字符串有可能被反复测试了很多次!

而DFA则不是如此,DFA会从 this 中 t 开始依次查找 y,定位到 y ,已知其后为 a ,则查看表达式是否有 a ,此处正好有 a 。然后字符串 a 后为 n ,DFA依次测试表达式,此时 msen 不符合要求淘汰。nsen 和 nsem 符合要求,然后DFA依次检查字符串,检测到sen 中的 n 时只有nsen 分支符合,则匹配成功!

由此可以看出来,2种引擎的工作方式完全不同,1个(NFA)以表达式为主导,1个(DFA)以文本为主导!一般而论,DFA引擎则搜索更快一些!但是NFA以表达式为主导,反而更容易操纵,因此一般程序员更偏爱NFA引擎! 2种引擎各有所长,而真正的引用则取决与你的需要以及所使用的语言!

正则表达式_正则表达式 -符号

(摘自《正则表达式之道》)

正则表达式

由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,我们下面会给予解释。

在最简单的情况下,1个正则表达式看上去就是1个普通的查找串。例如,正则表达式"testing"中没有包含任何元字符,它可以匹配"testing"和"testing123"等字符串,但是不能匹配"Testing"。

要想真正的用好正则表达式,正确的理解元字符是最重要的事情。下表列出了所有的元字符和对它们的1个简短的描述。

元字符描述\将下1个字符标记符、或1个向后引用、或1个八进制转义符。例如,“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。$匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。*匹配前面的子表达式任意次。例如,zo*能匹配“z”,“zo”以及“zoo”。*等价于{0,}。+匹配前面的子表达式一次或多次(大于等于1次)。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。?匹配前面的子表达式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。{n}n是1个非负整数。匹配确定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的2个o。{n,}n是1个非负整数。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。{n,m}m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的前3个o。“o{0,1}”等价于“o?”。请注意在逗号和2个数之间不能有空格。?当该字符紧跟在任何1个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o+”将匹配所有“o”。.点匹配除“\r\n”之外的任何单个字符。要匹配包括“\r\n”在内的任何字符,请使用像“[\s\S]”的模式。(pattern)匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0…$9属性。要匹配圆括号字符,请使用“\(”或“\)”。(?:pattern)匹配pattern但不获取匹配结果,也就是说这是1个非获取匹配,不进行存储供以后使用。这在使用或字符“(|)”来组合1个模式的各个部分是很有用。例如“industr(?:y|ies)”就是1个比“industry|industries”更简略的表达式。(?=pattern)正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是1个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符,也就是说,在1个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。(?!pattern)正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是1个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。(?<=pattern)反向肯定预查,与正向肯定预查类似,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。(?<!pattern)反向否定预查,与正向否定预查类似,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。x|y匹配x或y。例如,“z|food”能匹配“z”或“food”或"zood"(此处请谨慎)。“(z|f)ood”则匹配“zood”或“food”。[xyz]字符集合。匹配所包含的任意1个字符。例如,“[abc]”可以匹配“plain”中的“a”。[^xyz]负值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“plin”。[a-z]字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。注意:只有连字符在字符组内部时,并且出现在2个字符之间时,才能表示字符的范围; 如果出字符组的开头,则只能表示连字符本身.[^a-z]负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。\b匹配1个单词边界,也就是指单词和空格间的位置(即正则表达式的“匹配”有2种概念,1种是匹配字符,1种是匹配位置,这里的\b就是匹配位置的)。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。\B匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。\cx匹配由x指明的控制字符。例如,\cM匹配1个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为1个原义的“c”字符。\d匹配1个数字字符。等价于[0-9]。\D匹配1个非数字字符。等价于[^0-9]。\f匹配1个换页符。等价于\x0c和\cL。\n匹配1个换行符。等价于\x0a和\cJ。\r匹配1个回车符。等价于\x0d和\cM。\s匹配任何不可见字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。\S匹配任何可见字符。等价于[^ \f\n\r\t\v]。\t匹配1个制表符。等价于\x09和\cI。\v匹配1个垂直制表符。等价于\x0b和\cK。\w匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的"单词"字符使用Unicode字符集。\W匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。\xn匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的2个数字长。例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。\num匹配num,其中num是1个正整数。对所获取的匹配的引用。例如,“(.)\1”匹配2个连续的相同字符。\n标识1个八进制转义值或1个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为1个八进制转义值。\nm标识1个八进制转义值或1个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为1个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。\nml如果n为八进制数字(0-7),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。\un匹配n,其中n是1个用4个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(©)。\< \>匹配词(word)的开始(\<)和结束(\>)。例如正则表达式\<the\>能够匹配字符串"for the wise"中的"the",但是不能匹配字符串"otherwise"中的"the"。注意:这个元字符不是所有的软件都支持的。\( \)将 \( 和 \) 之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到1个临时区域(1个正则表达式中最多可以保存九个),它们可以用 \1 到\9 的符号来引用。|将2个匹配条件进行逻辑“或”(Or)运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:这个元字符不是所有的软件都支持的。+匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意:这个元字符不是所有的软件都支持的。?匹配0或一个正好在它之前的那个字符。注意:这个元字符不是所有的软件都支持的。{i} {i,j}匹配指定数目的字符,这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]{3} 能够匹配字符"A"后面跟着正好三个数字字符的串,例如A123、A348等,但是不匹配A1234。而正则表达式[0-9]{4,6} 匹配连续的任意四个、五个或者六个数字

最简单的元字符是点,它能够匹配任何单个字符(注意不包括换行符)。假定有个文件test.txt包含以下几行内容:

he is arat

he is in a rut

the food is Rotten

I like root beer

我们可以使用grep命令来测试我们的正则表达式,grep命令使用正则表达式去尝试匹配指定文件的每一行,并将至少有一处匹配表达式的所有行显示出来。命令

grep r.t test.txt

在test.txt文件中的每一行中搜索正则表达式r.t,并打印输出匹配的行。正则表达式r.t匹配1个r接着任何1个字符再接着1个t。所以它将匹配文件中的rat和rut,而不能匹配Rotten中的Rot,因为正则表达式是大小写敏感的。要想同时匹配大写和小写字母,应该使用字符区间元字符(方括号)。正则表达式[Rr]能够同时匹配R和r。所以,要想匹配1个大写或者小写的r接着任何1个字符再接着1个t就要使用这个表达式:[Rr].t。

要想匹配行首的字符要使用抑扬字符(^)——有时也被叫做插入符。例如,想找到text.txt中行首"he"打头的行,你可能会先用简单表达式he,但是这会匹配第三行的the,所以要使用正则表达式^he,它只匹配在行首出现的h。

有的时候指定“除了×××都匹配”会比较容易达到目的,当抑扬字符(^)出方括号中时,它表示“排除”,例如要匹配he ,但是排除前面是t or s的情形(也就是the和she),可以使用:[^st]he。

可以使用方括号来指定多个字符区间。例如正则表达式[A-Za-z]匹配任何字母,包括大写和小写的;正则表达式[A-Za-z][A-Za-z]* 匹配1个字母后面接着0或者多个字母(大写或者小写)。当然我们也可以用元字符+做到同样的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等价。但是要注意元字符+ 并不是所有支持正则表达式的程序都支持的。关于这一点可以参考后面的正则表达式语法支持情况。

要指定特定数量的匹配,要使用大括号(注意必须使用反斜杠来转义)。想匹配所有10和100的实例而排除1和 1000,可以使用:10\{1,2\},这个正则表达式匹配数字1后面跟着1或者两个0的模式。在这个元字符的使用中1个有用的变化是忽略第二个数字,例如正则表达式0\{3,\} 将匹配至少三个连续的0。

例1

将所有方法foo(a,b,c)的实例改为foo(b,a,c)。这里a、b和c可以是任何提供给方法foo()的参数。也就是说我们要实现这样的转换:

之前 之后

foo(10,7,2) foo(7,10,2)

foo(x+13,y-2,10) foo(y-2,x+13,10)

foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)

下面这条替换命令能够实现这一魔法:

:%s/foo(\([^,]*\),\([^,]*\),\([^,)]*\))/foo(\2,\1,\3)/g

让我们把它打散来加以分析。写出这个表达式的基本思路是找出foo()和它的括号中的3个参数的位置。第1个参数是用这个表达式来识别的::\([^,]*\),我们可以从里向外来分析它:

[^,] 除了逗号之外的任何字符

[^,]* 0或者多个非逗号字符

\([^,]*\) 将这些非逗号字符标记为\1,这样可以在之后的替换模式表达式中引用它

\([^,]*\), 我们必须找到0或者多个非逗号字符后面跟着1个逗号,并且非逗号字符那部分要标记出来以备后用。

正是指出1个使用正则表达式常见错误的最佳时机。为什么我们要使用[^,]*这样的1个表达式,而不是更加简单直接的写法,例如:.*,来匹配第1个参数呢?设想我们使用模式.*来匹配字符串"10,7,2",它应该匹配"10,"还是"10,7,"?为了解决这个两义性(ambiguity),正则表达式规定一律按照最长的串来,在上面的例子中就是"10,7,",显然这样就找出了2个参数而不是我们期望的1个。所以,我们要使用[^,]*来强制取出第1个逗号之前的部分。

这个表达式我们已经分析到了:foo(\([^,]*\),这一段可以简单的翻译为“当你找到foo(就把其后直到第1个逗号之前的部分标记为\1”。然后我们使用同样的办法标记第二个参数为\2。对第3个参数的标记方法也是一样,只是我们要搜索所有的字符直到右括号。我们并没有必要去搜索第3个参数,因为我们不需要调整它的位置,但是这样的模式能够保证我们只去替换那些有3个参数的foo()方法调用,在foo()是1个重载(overloading)方法时这种明确的模式往往是比较保险的。然后,在替换部分,我们找到foo()的对应实例,然后利用标记好的部分进行替换,是把第一和第二个参数交换位置。

正则表达式语法支持情况

命令或环境.[ ]^$\( \)\{ \}?+|( )vi√√√√√Visual C++√√√√√awk√√√√awk是支持该语法的,只是要在命令行加入 --posix or --re-interval参数就可以,可见man awk中的interval expression√√√√sed√√√√√√delphi√√√√√√√√√python√√√√√√java√√√√√√javascript√√√√√√√√√php√√√√√perl√√√√√√√√√C#√√√√√√√√

正则表达式_正则表达式 -替换技巧

实例目录

【1】 正则表达式应用——替换指定内容到行尾

【2】 正则表达式应用——数字替换

【3】 正则表达式应用——删除每一行行尾的指定字符

【4】 正则表达式应用——替换带有半角括号的多行

【5】 正则表达式应用——删除空行

【6】 正则表达式应用——实例应用

应用实例

【1】正则表达式应用——替换指定内容到行尾

原始文本如下面两行

abc aaaaa

123 abc 444

希望每次遇到“abc”,则替换“abc”以及其后到行尾的内容为“abc efg”

即上面的文本最终替换为:

abc efg

123 abc efg

解决:

① 在替换对话框,查找内容里输入“abc.*”,替换内容输入为“abc efg”

② 同时勾选“正则表达式”复选框,然后点击“全部替换”按钮

其中,符号的含义如下:

“.” =匹配任意字符

“*” =匹配0次或更多

注意:其实就是正则表达式替换,这里只是把一些曾经提出的问题加以整理,单纯从正则表达式本身来说,即可引申出成千上万种特例。

【2】正则表达式应用——数字替换

希望把

asdadas123asdasdas456asdasdasd789asdasd

替换为:

asdadasasdasdasasdasdasdasdasd

在替换对话框里面,勾选“正则表达式”复选框;

在查找内容里面输入“([0-9])([0-9])([0-9])”,不含引号

“替换为:”里面输入“[\1\2\3]”,不含引号

####备注####:查找([0-9]+) 替换:[\1] 更简单通用些

范围为你所操作的范围,然后选择替换就可以。

实际上这也是正则表达式的使用特例,“[0-9]”表示匹配0~9之间的任何特例,同样“[a-z]”就表示匹配a~z之间的任何特例

上面重复使用了“[0-9]”,表示连续出现的3个数字

括号用来选择原型,进行分组,替换时要用

“\1”代表第1个“[0-9]”对应的原型,“\2”代表第二个“[0-9]”对应的原型,依此类推

“[”、“]”为单纯的字符,表示添加“[”或“]”,如果输入“其它\1\2\3其它”,则替换结果为:

asdadas其它123其它asdasdas其它456其它asdasdasd其它789其它asdasd

功能增强:

如果将查找内容“[0-9][0-9][0-9]”改为“[0-9]*[0-9]”,对应1 或 123 或 12345 或 ...

大家根据需要定制

相关内容还有很多,可以自己参考正则表达式的语法仔细研究一下

【3】正则表达式应用——删除每一行行尾的指定字符

因为这几个字符在行中也是出现的,所以肯定不能用简单的替换实现

比如

12345 1265345

2345

需要删除每行末尾的“345”

这个也算正则表达式的用法,其实仔细看正则表达式应该比较简单,不过既然有这个问题提出,说明对正则表达式还得有个认识过程,解决方法如下

解决:

在替换对话框中,启用“正则表达式”复选框

在查找内容里面输入“345$”

这里“$”表示从行尾匹配

如果从行首匹配,可以用“^”来实现,不过 EditPlus 有另1个功能可以很简单的删除行首的字符串

a. 选择要操作的行

b. 编辑-格式-删除行注释

c. 在弹出对话框里面输入要清除的行首字符,确定

【4】正则表达式应用——替换带有半角括号的多行

几百个网页中都有下面一段代码:

<!--

htmlAdWH('93163607', '728', '90');

//-->

我想把它们都去掉,可是找了很多search & replace的软件,都是只能对“一行”进行操作。

EditPlus 打开几百个网页文件还是比较顺畅的,所以完全可以胜任这个工作。

具体解决方法,在 Editplus 中使用正则表达式,由于“(”、“)”被用做预设表达式(或者可以称作子表达式)的标志,所以查找

“\n”

时会提示查找不到,所以也就无法进行替换了,这时可以把“(”、“)”使用任意字符标记替代,即半角句号:“.”。替换内容为

\n

在替换对话框启用“正则表达式”选项,这时即可完成替换了

补充:

对( ) 这样的特殊符号,应该用\( \)来表示,这也是很标准的regexp语法,可以写为

\n

【5】正则表达式应用——删除空行

启动EditPlus,打开待处理的文本类型文件。

①、选择“查找”菜单的“替换”命令,弹出文本替换对话框。选中“正则表达式”复选框,表明我们要在查找、替换中使用正则表达式。然后,选中“替换范围”中的“当前文件”,表明对当前文件操作。

②、单击“查找内容”组合框右侧的按钮,出现下拉菜单。

③、下面的操作添加正则表达式,该表达式代表待查找的空行。(技巧提示:空行仅包括空格符、制表符、回车符,且必须以这3个符号之一作为一行的开头,并且以回车符结尾,查找空行的关键是构造代表空行的正则表达式)。

直接在“查找“中输入正则表达式“^[ \t]*\n”,注意\t前有空格符。

(1)选择“从行首开始匹配”,“查找内容”组合框中出现字符“^”,表示待查找字符串必须出文本中一行的行首。

(2)选择“字符在范围中”,那么在“^”后会增加一对括号“[]”,当前插入点在括号中。括号在正则表达式中表示,文本中的字符匹配括号中任意1个字符即符合查找条件。

(3)按一下空格键,添加空格符。空格符是空行的1个组成成分。

(4)选择“制表符”,添加代表制表符的“\t”。

(5)移动光标,将当前插入点移到“]”之后,然后选择“匹配 0 次或更多”,该操作会添加星号字符“*”。星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。

(6)选择“换行符”,插入“\n”,表示回车符。

④、“替换为”组合框保持空,表示删除查找到的内容。单击“替换”按钮逐个行删除空行,或单击“全部替换”按钮删除全部空行(注意:EditPlus有时存在“全部替换”不能一次性完全删除空行的问题,可能是程序BUG,需要多按几次按钮)。

【6】 正则表达式应用——实例应用

1.验证用户名和密码:(“^[a-zA-Z]\w{5,15}$“)正确格式:“[A-Z][a-z]_[0-9]“组成,并且第1个字必须为字母6~16位;

2.验证电话号码:(“^(\d{3.4}-)\d{7,8}$“)正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;

3.验证手机号码:“^1[3|4|5|8][0-9]\\d{8}$“;

4.验证身份证号(15位或18位数字):“\\d{17}[[0-9],0-9xX]“;

5.验证Email地址:(“^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$“);

6.只能输入由数字和二十六个英文字母组成的字符串:(“^[A-Za-z0-9]+$“) ;

7.整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$

8.只能输入数字:“^[0-9]*$“。

9.只能输入n位的数字:“^\d{n}$“。

10.只能输入至少n位的数字:“^\d{n,}$“。

11.只能输入m~n位的数字:“^\d{m,n}$“。

12.只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)$“。

13.只能输入有两位小数的正实数:“^[0-9]+(.[0-9]{2})?$“。

14.只能输入有1~3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?$“。

15.只能输入非零的正整数:“^\+?[1-9][0-9]*$“。

16.只能输入非零的负整数:“^\-[1-9][]0-9“*$。

17.只能输入长度为3的字符:“^.{3}$“。

18.只能输入由二十六个英文字母组成的字符串:“^[A-Za-z]+$“。

19.只能输入由二十六个大写英文字母组成的字符串:“^[A-Z]+$“。

20.只能输入由二十六个小写英文字母组成的字符串:“^[a-z]+$“。

21.验证是否含有^%&',;=?$\“等字符:“[^%&',;=?$\x22]+“。

22.只能输入汉字:“^[\u4e00-\u9fa5]{0,}$“。

23.验证URL:“^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$“。

24.验证一年的十二个月:“^(0?[1-9]|1[0-2])$“正确格式为:“01“~“09“和“1“~“12“。

25.验证1个月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$“正确格式为;“01“~“09“和“1“~“31“。

26.获取日期正则表达式:\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?

评注:可用来匹配大多数年月日信息。

27.匹配双字节字符(包括汉字在内):[^\x00-\xff]

评注:可以用来计算字符串的长度(1个双字节字符长度计2,ASCII字符计1)

28.匹配空白行的正则表达式:\n\s*\r

评注:可以用来删除空白行

29.匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? />

评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力

30.匹配首尾空白字符的正则表达式:^\s*|\s*$

评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式

31.匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*

评注:网上流传的版本功能很有限,上面这个基本可以满足需求

32.匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

评注:表单验证时很实用

33.匹配腾讯QQ号:[1-9][0-9]\{4,\}

评注:腾讯QQ号从10 000 开始

34.匹配中国邮政编码:[1-9]\d{5}(?!\d)

评注:中国邮政编码为6位数字

35.匹配ip地址:((2[0-4]\d|25[0-5]|?\d\d?)\.){3}(2[0-4]\d|25[0-5]|?\d\d?)。

评注:提取ip地址时有用

Function IsRegu(Regu,s)

'正则表达式校验

If Regu=““ Then

Exit Function

End if

Dim Re,Sre

Set Re = New RegExp

Re.Pattern = Regu

Sre = Re.Test(s)

If Sre = True Then

IsRegu = True

Else

IsRegu = False

End If

End Function

tmp=“ “

if (IsRegu(“\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*“,tmp )) =false then

msgbox “E-mail地址不合法 !“

FieldCheck#N=false

end if

不同的语言(如PHP和JAVA)、相同语言的不同类库(如来自Sun的Java Regular Expression类库跟Apache Jakarta的正则表达式类库)间,用法会有所差别,在使用之际,要注意这些差别。

验证URL

function IsValidUrl(str) {

var regu = “^(https?://)“

+ “?(([0-9a-z_!~*'().&=+$%-]+: )?[0-9a-z_!~*'().&=+$%-]+@)?“

+ “(([0-9]{1,3}\.){3}[0-9]{1,3}“

+ “|“

+ “([0-9a-z_!~*'()-]+\.)*“

+ “([0-9a-z][0-9a-z-]{0,61})?[0-9a-z]\.“

+ “[a-z]{2,6})“

+ “(:[0-9]{1,4})?“

+ “((/?)|“

+ “(/[0-9a-z_!~*'().;?:@&=+$,%#-]+)+/?)$“;

var re = new RegExp(regu);

if (!re.test(str)) {

return false;

}

return true;

}

正则表达式_正则表达式 -零宽断言

用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定1个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。最好还是拿例子来说明吧:

(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。

(?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。

假如你想要给1个很长的数字中每三位间加1个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((?<=\d)\d{3})+\b,用它对xxxxxxxxxx进行查找时结果是xxxxxxxxxx

下面这个例子同时使用了这2种断言:(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)

断言用来声明1个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。

正则表达式_正则表达式 -负向零宽

如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样:

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出单词的结尾的话,像Iraq,Benq,这个表达式就会出错。这是因为[^u]总要匹配1个字符,所以如果q是单词的最后1个字符的话,后面的[^u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),后面的\w*\b将会匹配下1个单词,于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配1个位置,并不消费任何字符。,我们可以这样来解决这个问题:\b\w*q(?!u)\w*\b。

零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

同理,我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。

请详细分析表达式(?<=<(\w+)>).*(?=<\/\1>),这个表达式最能表现零宽断言的真正用途。

1个更复杂的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。(?<=<(\w+)>)指定了这样的前缀:被尖括号括起来的单词(比如可能是),然后是.*(任意的字符串),最后是1个后缀(?=<\/\1>)。注意后缀里的\/,它用到了前面提过的字符转义;\1则是1个反向引用,引用的正是捕获的第一组,前面的(\w+)匹配的内容,这样如果前缀实际上是的话,后缀就是了。整个表达式匹配的是之间的内容(再次提醒,不包括前缀和后缀本身)。

正则表达式_正则表达式 -相关启示

(1) 心中时刻保持新颖想法,尝试用各种新办法来解决遇到的问题。对于遇到的问题,在用常规的解决思路无法解决或不能很好解决之际,可以大胆探索尝试采用新的方法或思路来解决问题,说大点就是创新!没有新思路估计如今的正则表达式还要等几百年才能露现人间。

(2) 善于学习和借鉴前人的经验和成果,UNIX鼻祖Ken Thompson是什么样子的人?是被计算机界尊称为“UNIX之父”的大师级别的人物,大师都在不断思考从其它学科、其它知识领域的工作成果,来改进自己的工作或程序,事实也证明这样做取得巨大结果和后来的深远影响是事先谁也无法预估到的,我们在做一些事情或研究的时间,是否也考虑学习大师的优秀习惯?

(3) 学好数学、英语并保持对数学、英语的兴趣,数学也是人类几千年积累的智慧结晶,学习数学知识可以培养和训练人的思维能力。看这篇文章的朋友,我想很多都是计算机相关专业的朋友,至于数学和英语对于计算机学习和发展的重要性的道理,这里就不在多说,重在实践加持之以恒!

(4) 养成独立思考的习惯。上学时候老师经常说人与动物的最大区别是人能思考。拉美洲有句关于“思考”的谚语是,不会思考的人是白痴,不肯思考的人是懒汉,不敢思考的人是奴隶。我想大家和我一样,既不愿做懒汉、奴隶,更不愿做白痴。所以相信正则分享网的朋友们一定会选择做1个“会思、肯思、敢思”的人。

(5) 当正则表达式和字符串函数都能解决问题时,一定要使用字符串函数,这样不容易出错,最重要的是字符串函数比正则表达式实现性能上要好得多。

换一组
本文标题:正则表达式/UltraEdit正则表达式介绍及实例分享
本文地址:/624733.html
type="text/javascript" src="//j.shuoshuow.cn/pc/yd/js/pub.js?01">> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm./hm.js?40e0c4688dc6d9b41f746f266e963e0b"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();