当前位置：搜档网 › Shell正则表达式与模式匹配

Shell正则表达式与模式匹配

模式匹配

参数扩展还包括了一些模式匹配功能，该功能带有在文件名扩展或globbing 中使用的通配符功能。注意：这不是grep 使用的正则表达式匹配。

表2. Shell 扩展模式匹配扩展目的

${PARAMETER#WORD} shell 像文件名扩展中那样扩展WORD，并从PARAMETER 扩展后的值的开头删除最短的匹配模式（若存在匹配模式的话）。使用‘@’或‘$’即可删除列表中每个参数的模式。

${PARAMETER##WORD} 导致从开头删除最长的匹配模式而不是最短的匹配模式。

${PARAMETER%WORD} shell 像文件名扩展中那样扩展WORD，并从PARAMETER 扩展后的值末尾删除最短的匹配模式（若存在匹配模式的话）。使用‘@’或‘$’即可删除列表中每个参数的模式。

${PARAMETER%%WORD} 导致从末尾删除最长的匹配模式而不是最短的匹配模式。

${PARAMETER/PATTERN/STRING} shell 像文件名扩展中那样扩展PATTERN，并替换PARAMETER 扩展后的值中最长的匹配模式（若存在匹配模式的话）。为了在PARAMETER 扩展后的值开头匹配模式，可以给PATTERN 附上前缀#，如果要在值末尾匹配模式，则附上前缀%。如果STRING 为空，则末尾的/ 可能被忽略，匹配将被删除。使用‘@’或‘$’即可对列表中的每个参数迚行模式替换。

${PARAMETER//PATTERN/STRING} 对所有的匹配（而不只是第一个匹配）执行替换。

清单11 给出了模式匹配扩展的一些基本用法。

清单11. 模式匹配示例

[ian@pinguino ~]$ x="a1 b1 c2 d2"

[ian@pinguino ~]$ echo ${x#*1}

b1 c2 d2

[ian@pinguino ~]$ echo ${x##*1}

c2 d2

[ian@pinguino ~]$ echo ${x%1*}

a1 b

[ian@pinguino ~]$ echo ${x%%1*}

[ian@pinguino ~]$ echo ${x/1/3}

a3 b1 c2 d2

[ian@pinguino ~]$ echo ${x//1/3}

a3 b3 c2 d2

[ian@pinguino ~]$ echo ${x//?1/z3}

z3 z3 c2 d2

-------------------------------------------

正则表达式元字符

Shell命令模式匹配：（命令结束符；空命令：）

1. *表示0-多个字符

2. ？表示一个字符。

3. [a-m1-9]表示匹配a-m或1-9之间的任何一个字符。

4. [!a-kw-z]表示匹配除了a-k或w-z的一个字符。

正则表达式模式匹配：(匹配字符、字符串、行)

1. .表示匹配任何单个字符。

2. [^a-kw-z]表示匹配除了a-k或w-z的一个字符。

3. /…/表示模式，每种模式都要放在//中。

4. /表示重复上次搜索。

msg="https://www.sodocs.net/doc/cf11732235.html,"

msgg="${msg//./_}" -->www_qq_com

5. …/…表示查找并替换。

6. ^表示跟一行的行首迚行、匹配。

7. $表示跟一行的行尾迚行匹配。

8. \表示转义，要与正则表达式中表示特殊意义的字符惊醒匹配，需要该斜杠。

9. ^$表示匹配不含字符的行。

10. [a-m1-9]表示匹配a-m或1-9之间的任何一个字符。

11. [!a-kw-z]表示匹配除了a-k或w-z的一个字符。

12. *匹配0或多个*靠近的前面的字符。

13. .*表示匹配0个或多个任意字符。匹配哦个或多个.用\.*。

14. [-0-9]把连字符-当作匹配字符。

15. [^]a-m]把]字符当作匹配字符。

16. \{min,max\}表示精确匹配，精确匹配连续的min-max前面出现的字符。

17. $…$保存匹配的字符串，把匹配的字符或字符串保存到编号为1-9的寄存器中，用\n来引用寄存器的内容，n为0-9.

18. ^$…$$…$表示行中头三个字符存在1号寄存器中，接着三个存在2号寄存器中。

19. /$.*$ $.*$/\2 \1/表示交换包含制表符两个字段。

20. /…/g中g表示对每行中的匹配都迚行处理。

21. 字符/…/ 中“字符”表示

22. ‘’可以去掉表示特殊意义的字符多具有的特使意义。

23. “”与‘’相似，但$,``(反引号)，\三中特殊符不被忽略。

24. 引号可把含有空格的字符串看作整体参数传入作为$n,在使用该参数时要做变量替换。所以要一直传下去，就要用“$n”防止变量暂时替换。

---------------------------------------------

元字符

功能

示例

匹配对象

行首定位符

/^man/

匹配所有以man开头的行

行尾定位符

/man$/

匹配所有以man结尾的行

匹配单个字符

/m..n/

匹配包含一个m，后跟两个字符，再跟一个n的行

匹配0个或多个重复的位于星号前的字符

/*man/

匹配包含跟在0个或者多个空格的模式的man的行

[]

匹配一组字符中任一个

/[Mm]an/

匹配包含Man或man的行

[x-y]

匹配指定范围内的一个字符

/[A-Z]an/

匹配后面跟着an的一个A至Z之间的字符

[^]

匹配不在指定组内的字符

/[^A-Z]/

匹配不在范围A至Z之间的任意一个字符

用来转义元字符

/man\./

匹配包含man，后面跟一个点（如果不转义的话则是匹配一个任意字符）

词首定位符

匹配包含以man开头的词的行（vi和grep支持）

词首定位符

/man\>/

匹配包含以man结尾的词的行（vi和grep支持）

$..$

匹配稍后将要使用的字符的标签

s/$man$

acle/\1age/g

最多可以使用9个标签，模式中最左边的标签是第一个。例如，模式man被保存为标签1，用\1表示。左边这个例子中，查找manacle，把它替换成manage(sed、vi和grep 支持)

x\{m\}或

x\{m,\}或

x\{m,n\}

字符x的重复出现：m次、至少m次、至少m次且不超过n次

n\{3,5\}

匹配包含3~5个连续的字母n的行

正则表达式

1.验证用户名和密码：（"^[a-zA-Z]\w{5,15}$"）正确格式："[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位； 2.验证电话号码：（"^(\d{3,4}-)\d{7,8}$"）正确格式：xxx/xxxx-xxxxxxx/xxxxxxxx； 3.验证手机号码："^1[3|4|5|7|8][0-9]\\d{8}$"； 4.验证身份证号（15位或18位数字）："\d{14}[[0-9],0-9xX]"； 5.验证Email地址：("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$")； 6.只能输入由数字和26个英文字母组成的字符串：("^[A-Za-z0-9]+$")； 7.整数或者小数：^[0-9]+([.][0-9]+){0,1}$ 8.只能输入数字："^[0-9]*$"。 9.只能输入n位的数字："^\d{n}$"。 10.只能输入至少n位的数字："^\d{n,}$"。 11.只能输入m~n位的数字："^\d{m,n}$"。 12.只能输入零和非零开头的数字："^(0|[1-9][0-9]*)$"。 13.只能输入有两位小数的正实数："^[0-9]+(\.[0-9]{2})?$"。 14.只能输入有1~3位小数的正实数："^[0-9]+(\.[0-9]{1,3})?$"。 15.只能输入非零的正整数："^\+?[1-9][0-9]*$"。 16.只能输入非零的负整数："^\-[1-9][0-9]*$"。 17.只能输入长度为3的字符："^.{3}$"。 18.只能输入由26个英文字母组成的字符串："^[A-Za-z]+$"。 19.只能输入由26个大写英文字母组成的字符串："^[A-Z]+$"。 20.只能输入由26个小写英文字母组成的字符串："^[a-z]+$"。 21.验证是否含有^%&',;=?$\"等字符："[%&',;=?$\\^]+"。 22.只能输入汉字："^[\u4e00-\u9fa5]{0,}$"。 23.验证URL："^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。 24.验证一年的12个月："^(0?[1-9]|1[0-2])$"正确格式为："01"～"09"和"10"～"12"。 25.验证一个月的31天："^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为；"01"～"09"、"10"～"29"和“30”~“31”。 26.获取日期正则表达式：\\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日? 评注：可用来匹配大多数年月日信息。 27.匹配双字节字符(包括汉字在内)：[^\x00-\xff] 评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1） 28.匹配空白行的正则表达式：\n\s*\r 评注：可以用来删除空白行 29.匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?|<.*? /> 评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力 30.匹配首尾空白字符的正则表达式：^\s*|\s*$

正则表达式

本文分十四个类别对正则表达式的意义进行了解释，这十四各类别是：字符/字符类/预定义字符类/POSIX字符类/https://www.sodocs.net/doc/cf11732235.html,ng.Character类/Unicode块和类别的类/边界匹配器/Greedy数量词/Reluctant数量词/Possessive数量词/Logical运算符/Back引用/引用/特殊构造。 1.1.字符 x 字符 x。例如a表示字符a \\ 反斜线字符。在书写时要写为\\\\。（注意：因为java在第一次解析时把\\\\解析成正则表达式\\，在第二次解析时再解析为\，所以凡是不是1.1列举到的转义字符，包括1.1的\\,而又带有\的都要写两次） \0n 带有八进制值 0的字符 n (0 <= n <= 7) \0nn 带有八进制值 0的字符 nn (0 <= n <= 7) \0mnn 带有八进制值 0的字符 mnn（0 <= m <= 3、0 <= n <= 7） \xhh 带有十六进制值 0x的字符 hh \uhhhh 带有十六进制值 0x的字符 hhhh \t 制表符 ('\u0009') \n 新行（换行）符 ('\u000A') \r 回车符 ('\u000D') \f 换页符 ('\u000C') \a 报警 (bell) 符 ('\u0007') \e 转义符 ('\u001B') \cx 对应于 x 的控制符 1.2.字符类 [abc] a、b或 c（简单类）。例如[egd]表示包含有字符e、g或d。 [^abc] 任何字符，除了 a、b或 c（否定）。例如[^egd]表示不包含字符e、g或d。 [a-zA-Z] a到 z或 A到 Z，两头的字母包括在内（范围） [a-d[m-p]] a到 d或 m到 p：[a-dm-p]（并集） [a-z&&[def]] d、e或 f（交集） [a-z&&[^bc]] a到 z，除了 b和 c：[ad-z]（减去） [a-z&&[^m-p]] a到 z，而非 m到 p：[a-lq-z]（减去） 1.3.预定义字符类(注意反斜杠要写两次，例如\d写为\\d) . 任何字符（与行结束符可能匹配也可能不匹配） \d 数字：[0-9] \D 非数字： [^0-9] \s 空白字符：[ \t\n\x0B\f\r] \S 非空白字符：[^\s] \w 单词字符：[a-zA-Z_0-9] \W 非单词字符：[^\w] 1.4.POSIX 字符类（仅 US-ASCII)(注意反斜杠要写两次，例如\p{Lower}写为\\p{Lower})

C#利用正则表达式实现字符串搜索

C#利用正则表达式实现字符串搜索 2005-08-04 22:27 作者：张志远来源：天极网【简介】本文给出了在C#下利用正则表达式实现字符串搜索功能的方法，通过对.NET框架下的正则表达式的研究及实例分析，总结了正则表达式的元字符、规则、选项等。加入收藏设为首页 -------------------------------------------------------------------------------- 3、.NET 框架的正则表达式类下面通过介绍 .NET 框架的正则表达式类，熟悉一下.NET框架下的正则表达式的使用方法。 3.1 Regex 类表示只读正则表达式 Regex 类包含各种静态方法，允许在不显式实例化其他类的对象的情况下使用其他正则表达式类。以下代码示例创建了 Regex 类的实例并在初始化对象时定义一个简单的正则表达式。请注意，使用了附加的反斜杠作为转义字符，它将 \s 匹配字符类中的反斜杠指定为原义字符。 Regex r; // 声明一个 Regex类的变量 r = new Regex("\\s2000"); // 定义表达式 3.2 Match 类表示正则表达式匹配操作的结果以下示例使用 Regex 类的 Match 方法返回 Match 类型的对象，以便找到输入字符串中第一个匹配。此示例使用 Match 类的 Match.Success 属性来指示是否已找到匹配。 Regex r = new Regex("abc"); // 定义一个Regex对象实例 Match m = r.Match("123abc456"); // 在字符串中匹配 if (m.Success) {

Excel中使用正则表达式

Excel另类条件化格式 1 前言我们知道，Excel的条件化格式可以根据单元个的内容来设置整个单元格的格式。如图1中的C列，当单元格的内容为“结束”时，字体颜色为绿色，为“进行中”时，颜色为黄色。但如果我们想把B列的部分特定文字(如日期2012-3-4)设置成不同的字体和颜色， Excel的条件化格式工具是不能实现的，需要另辟蹊径。图1 2 实现过程 2.1 目标实现B列单元格中日期字符串的字体设置成“Arial Black”字体，颜色为红色。 2.2 设计思路 Excel的VBA编程功能很强大，可以轻松实现上述目标。程序的设计思路是：找到日期字符串，然后设置字体格式。本例中利用了正则表达式来寻找日期字符串，通过Characters对象的Font属性来设置字符串的格式。 2.3 正则表达式我们在处理文本时，经常会遇到一些满足某种规则的字符串。比如，一个无符号的整数由一连串的数字构成，本例中的日期是满足“整数-整数-整数”规则的字符串。正则表达式就是用来指定这种规则的。如果某个字符串满足正则表达式指定的规则，则称该字符串为正则表达式的一个“匹配串”。正则表达式中用\d 来匹配单个数字，用\d+来匹配连续的多个数字，这样本例中用"\d+-\d+-\d+"就可以匹配日期字符串。Excel的VBA可以通过引用vbscript中的正则标定式对象"vbscript.regexp"来使用正则表达式。 2.4 Characters函数语法：Characters(start, length) 参数：Start是指从第几个字符处开始选择，length是要返回的字符数。返回：Characters对象。用来控件文本中某一范围的字符串。例如，通过Characters对象的Font属性可以设置字符串的字体格式。 2.5程序代码把FormatClick程序和“更新”按钮的Click事件关联起来，只要点击“更新”按钮就可以更新日期的字体的名称和颜色了。具体程序如下: Sub FormatClick() '声明正则表达式对象 Dim RegEx As Object '引用正则标定式对象 Set RegEx = CreateObject("vbscript.regexp")

PHP 常用正则表达式正则

PHP 常用正则表达式正则平时做网站经常要用正则表达式，下面是一些讲解和例子，仅供大家参考和修改使用："^\d+$"//非负整数（正整数+ 0） "^[0-9]*[1-9][0-9]*$"//正整数 "^((-\d+)|(0+))$"//非正整数（负整数+ 0） "^-[0-9]*[1-9][0-9]*$"//负整数 "^-?\d+$"//整数 "^\d+(\.\d+)?$"//非负浮点数（正浮点数+ 0） "^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"//正浮点数"^((-\d+(\.\d+)?)|(0+(\.0+)?))$"//非正浮点数（负浮点数+ 0） "^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"//负浮点数 "^(-?\d+)(\.\d+)?$"//浮点数 "^[A-Za-z]+$"//由26个英文字母组成的字符串 "^[A-Z]+$"//由26个英文字母的大写组成的字符串 "^[a-z]+$"//由26个英文字母的小写组成的字符串 "^[A-Za-z0-9]+$"//由数字和26个英文字母组成的字符串 "^\w+$"//由数字、26个英文字母或者下划线组成的字符串 "^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"//email地址 "^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"//url /^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日 /^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年 "^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$" //Emil /^((\+?[0-9]{2,4}\-[0-9]{3,4}\-)|([0-9]{3,4}\-))?([0-9]{7,8})(\-[0-9]+)?$/ //电话号码 "^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}| 1dd|2[0-4]d|25[0-5])$" //IP地址匹配中文字符的正则表达式：[\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内)：[^\x00-\xff] 匹配空行的正则表达式：\n[\s| ]*\r 匹配HTML标记的正则表达式：/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配首尾空格的正则表达式：(^\s*)|(\s*$) 匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 匹配网址URL的正则表达式：^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$ 匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 匹配国内电话号码：(\d{3}-|\d{4}-)?(\d{8}|\d{7})? 匹配腾讯QQ号：^[1-9]*[1-9][0-9]*$ 元字符及其在正则表达式上下文中的行为： \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转

正则表达式

多少年来，许多的编程语言和工具都包含对正则表达式的支持，.NET基础类库中包含有一个名字空间和一系列可以充分发挥规则表达式威力的类，而且它们也都与未来的Perl 5中的规则表达式兼容。此外，regexp类还能够完成一些其他的功能，例如从右至左的结合模式和表达式的编辑等。在这篇文章中，我将简要地介绍System.Text.RegularExpression中的类和方法、一些字符串匹配和替换的例子以及组结构的详细情况，最后，还会介绍一些你可能会用到的常见的表达式。应该掌握的基础知识规则表达式的知识可能是不少编程人员“常学常忘”的知识之一。在这篇文章中，我们将假定你已经掌握了规则表达式的用法，尤其是Perl 5中表达式的用法。.NET的regexp类是Perl 5中表达式的一个超集，因此，从理论上说它将作为一个很好的起点。我们还假设你具有了C#的语法和.NET架构的基本知识。如果你没有规则表达式方面的知识，我建议你从Perl 5的语法着手开始学习。在规则表达式方面的权威书籍是由杰弗里?弗雷德尔编写的《掌握表达式》一书，对于希望深刻理解表达式的读者，我们强烈建议阅读这本书。 RegularExpression组合体 regexp规则类包含在System.Text.RegularExpressions.dll文件中，在对应用软件进行编译时你必须引用这个文件，例如： csc r:System.Text.RegularExpressions.dll foo.cs 命令将创建foo.exe文件，它就引用了System.Text.RegularExpressions文件。名字空间简介在名字空间中仅仅包含着6个类和一个定义，它们是： Capture: 包含一次匹配的结果； CaptureCollection: Capture的序列； Group: 一次组记录的结果，由Capture继承而来； Match: 一次表达式的匹配结果，由Group继承而来； MatchCollection: Match的一个序列； MatchEvaluator: 执行替换操作时使用的代理； Regex: 编译后的表达式的实例。 Regex类中还包含一些静态的方法： Escape: 对字符串中的regex中的转义符进行转义； IsMatch: 如果表达式在字符串中匹配，该方法返回一个布尔值； Match: 返回Match的实例； Matches: 返回一系列的Match的方法； Replace: 用替换字符串替换匹配的表达式； Split: 返回一系列由表达式决定的字符串； Unescape:不对字符串中的转义字符转义。

用正则表达式实现排版助手

用正则表达式实现排版助手（GIDOT TYPESETTER）的部分排版功能 2009年08月06日星期四上午 08:42 副标题：用正则表达式实现段首缩进、修正换行、修正非段落换行、删除行尾空格、删除空行相信使用过排版助手的人应该都觉得这是一个好软件吧？不过，我对其中的“删除非段落换行”有一个不满的地方 [https://www.sodocs.net/doc/cf11732235.html,/gevolution90/blog/item/34cabb7fc2b8710128388ada. html]。于是才引发出这一篇文章。 *如果你还未有在windows下的正则表达式批量替换工具的话，推荐使用TextForever[https://www.sodocs.net/doc/cf11732235.html,/stronghorse/software/index.htm#Tex tForever]，很强大的文本整理工具 1.段首缩进：可以把每行（段）的前面格式化成指定的字符串，比如2个全角空格。正则：^[ ]*（？=[^\s]）你可以替换成2个全角空格或4个半角空格或你自己喜欢的任何字符串。 2.修正换行：有些文章一行紧接着一行，看起来有点不舒服，可以把每段内容段（有文字的段）之间的换行格式化成指定数量的换行比如双换行（两段之间空一行空行）。正则：[\r\n]+ 你可以替换成2个回车。 3.修正非段落换行：有点文章很变态的，它从文本内容中实现换行，比如：第一段的内容，内容，内容第一段第二行的内容内容内容。这样的换行，这对于资料的整理有点不利，所以，这个正则就是用来修正这样的换行的，把它们合并成一行，即一个段落。正则：^（。{25,}[^……“”！！：：？？]）\r\n 替换成：$1 把你认为不是段落结束的标点加入到那个中括号中，大括号中的“25”为作

正则表达式7

Java正则表达式详解仙人掌工作室如果你曾经用过Perl或任何其他内建正则表达式支持的语言，你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语，那么“正则表达式”（Regular Expression）就是一个字符构成的串，它定义了一个用来搜索匹配字符串的模式。许多语言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正则表达式处理文本，一些文本编辑器用正则表达式实现高级“搜索-替换”功能。那么Java又怎样呢？本文写作时，一个包含了用正则表达式进行文本处理的Java规范需求（Specification Request）已经得到认可，你可以期待在JDK的下一版本中看到它。然而，如果现在就需要使用正则表达式，又该怎么办呢？你可以从https://www.sodocs.net/doc/cf11732235.html,下载源代码开放的Jakarta-ORO库。本文接下来的内容先简要地介绍正则表达式的入门知识，然后以Jakarta-ORO API为例介绍如何使用正则表达式。一、正则表达式基础知识我们先从简单的开始。假设你要搜索一个包含字符“cat”的字符串，搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感，单词“catalog”、“Catherine”、“sophisticated”都可以匹配。也就是说： 1.1句点符号假设你在玩英文拼字游戏，想要找出三个字母的单词，而且这些单词必须以“t”字母开头，以“n”字母结束。另外，假设有一本英文字典，你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式，你可以使用一个通配符——句点符号“.”。这样，完整的表达式就是“t.n”，它匹配“tan”、“ten”、“tin”和“ton”，还匹配“t#n”、“tpn”甚至“t n”，还有其他许多无意义的组合。这是因为句点符号匹配所有字符，包括空格、Tab字符甚至换行符： 1.2方括号符号为了解决句点符号匹配范围过于广泛这一问题，你可以在方括号（“[]”）里面指定看来有意义的字符。此时，只有方括号里面指定的字符才参与匹配。也就是说，正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配，因为在方括号之内你只能匹配单个字符 1.3“或”符号

正则表达式小甲鱼

正则表达式介绍（一）正则表达式（Regular expressions 也称为 REs，或 regexes 或 regex patterns）本质上是一个微小的且高度专业化的编程语言。它被嵌入到 Python 中，并通过 re 模块提供给程序猿使用。使用正则表达式，你需要指定一些规则来描述那些你希望匹配的字符串集合。这些字符串集合可能包含英语句子、 e-mail 地址、TeX 命令，或任何你想要的东东。正则表达式模式被编译成一系列的字节码，然后由一个 C 语言写的匹配引擎所执行。对于高级的使用，你可能需要更关注匹配引擎是如何执行给定的 RE，并通过一定的方式来编写RE，以便产生一个可以运行得更快的字节码。本文暂不讲解优化的细节，因为这需要你对匹配引擎的内部机制有一个很好的理解。但本文的例子均是符合标准的正则表达式语法。小甲鱼注释：Python 的正则表达式引擎是用 C 语言写的，所以效率是极高的。另，所谓的正则表达式，这里说的 RE，就是上文我们提到的“一些规则”。正则表达式语言相对较小，并且受到限制，所以不是所有可能的字符串处理任务都可以使用正则表达式来完成。还有一些特殊的任务，可以使用正则表达式来完成，但是表达式会因此而变得非常复杂。在这种情况下，你可能通过自己编写Python 代码来处理会更好些；尽管 Python 代码比一个精巧的正则表达式执行起来会慢一些，但可能会更容易理解。小甲鱼注释：这可能是大家常说的“丑话说在前”吧，大家别管他，正则表达式非常优秀，她可以处理你 98.3% 的文本任务，一定要好好学哦~~~~~ 简单的模式我们将从最简单的正则表达式学习开始。由于正则表达式常用于操作字符串的，因此我们从最常见的任务下手：字符匹配。

正则表达式

[23:39:35] 王尧说："^\d+$"//非负整数（正整数+ 0） "^[0-9]*[1-9][0-9]*$"//正整数 "^((-\d+)|(0+))$"//非正整数（负整数+ 0） "^-[0-9]*[1-9][0-9]*$"//负整数 "^-?\d+$"//整数 "^\d+(\.\d+)?$"//非负浮点数（正浮点数+ 0） "^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"//正浮点数 "^((-\d+(\.\d+)?)|(0+(\.0+)?))$"//非正浮点数（负浮点数+ 0） "^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"//负浮点数 "^(-?\d+)(\.\d+)?$"//浮点数 "^[A-Za-z]+$"//由26个英文字母组成的字符串 "^[A-Z]+$"//由26个英文字母的大写组成的字符串 "^[a-z]+$"//由26个英文字母的小写组成的字符串 "^[A-Za-z0-9]+$"//由数字和26个英文字母组成的字符串 "^\w+$"//由数字、26个英文字母或者下划线组成的字符串 "^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"//email地址 "^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"//url /^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ //年-月-日 /^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ //月/日/年 ^(\w+((-\w+)|(\.\w+))*)\+\w+((-\w+)|(\.\w+))*\@[A-Za-z0-9]+((\.|-)[A-Za-z0-9]+)*\.[A-Za-z0-9]+$ //Emil "(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?" //电话号码 "^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1, 2}|1dd|2[0-4]d|25[0-5])$" //IP地址匹配中文字符的正则表达式：[\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内)：[^\x00-\xff] 匹配空行的正则表达式：\n[\s| ]*\r 匹配HTML标记的正则表达式：/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配首尾空格的正则表达式：(^\s*)|(\s*$) 匹配Email地址的正则表达式：^(\w+((-\w+)|(\.\w+))*)\+\w+((-\w+)|(\.\w+))*\@[A-Za-z0-9]+((\.|-)[A-Za-z0-9]+)*\.[A-Za-z0-9]+$ 匹配网址URL的正则表达式：^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$ 匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 匹配国内电话号码：(\d{3}-|\d{4}-)?(\d{8}|\d{7})? 匹配腾讯QQ号：^[1-9]*[1-9][0-9]*$ 漢字 Private Ps_KanjiRegex As String = "\u00A0-\u303F\u3200-\u33CF\u4E00-\uFF60\uFFA0-\uFFE5" ''入力可能漢字のコード（正規表現チェック用）

正则表达式在垂直搜索引擎中的应用

作者简介：张斌（1977-），硕士，讲师，研究方向：电子商务专业方向。收稿日期：2010-05-06 正则表达式在垂直搜索引擎中的应用张斌（浙江越秀外国语学院，绍兴312000）摘要：采用聚焦爬虫可以提高搜索引擎的检索效率，聚焦爬虫经常使用正则表达式来进行有效的信息检索，着重分析了网页检索中常用的正则表达式，为搜索引擎的构建提供帮助。关键词：正则表达式；聚焦爬虫；信息检索中图分类号：TP3 文献标识码：B 文章编码：1672－6251（2010）08－0162－02 Application of Regular Expressions in Vertical Search Engine ZHANG Bin (Zhejiang Yuexiu Foreign Language College,Shaoxing 312000) Abstract:Because focused crawler system can promote the efficiency of search engine and regular expression could used to get quick and efficient search.In this paper,regular expression used in web page index was analyzed for providing useful help for researcher in vertical search engine. Key words:regular expressions;focuses crawler;information retrieval 页面内容提取、分词、自然语言处理是聚焦爬虫的主要工作。在内容提取中采用正则表达可以明显提高效能，已在许多搜索程序中广泛应用。以下列举几个常用的正则表达，并分析其在聚焦爬虫中的应用方法，以供同行参考。 1正则表达式与文档内容提取正则表达式是一种编程语言中使用的特殊代码模式，可用其验证、查找、替换与划分文本内容。聚焦爬虫往往通过对主题网页的学习提取主题特征的正则表达式，以指导爬虫过滤与主题不相符的网页文本[4]。正则表达式基本技巧如下：（1）匹配多个字符之一。如匹配拼写错误的fac - tory ，可用:f [ae]ct [ou]ry ；（2）匹配文本行开始与结束。如以c 开始，a 结束，可用:^a.*b$；（3）匹配单词。如找dog ，可用:\bdog\b ；（4）Unicode 字母。如匹配中文，可用:[\u3400- \u4DB5\u4E00-\u9fa5]；（5）分组和捕获。如匹配年月日相同的日期，可用:\b\d\d (\d\d)-\1-\1\b ，其中1表示捕获分组1，即 (\d\d)中的内容，捕获分组可以表示临时存取的区域，用于引用和替换；（6）重复匹配。完整HTML 文件可用： .*?.*?.*?.*.*?]*>.*>.*?. 其中：*表示一个或多个，?表示0个或一个，^表示否定。 Html 文件也可使用NekoHTML 做标签补偿，用HtmlParser 等解析程序将网页转换成一个个串联的Node ，用正则式过滤脚本、注释等标签，提取表格等结构化信息，实现网页去噪。其中包括为网页建立网站风格树和计算节点重要性来确定噪声元素。 2正则表达式编程使用C#、Java 等编程语言的步骤如下：①要先要导入函数库，其中C#用using System.Text.RegularEx - pressions ；Java 用import java.util.regex.*；②创建正则表达式对象，C#用Regex regexObj =new Regex (" regex pattern")；Java 用Pattern regex=https://www.sodocs.net/doc/cf11732235.html,pile ("regex pattern");Matcher regexMatcher =regex.matcher (subjectString)；③在网页信息提取中，拆分字符串、逐行查找为常用功能，C#代码如下：string []spli - tArray=Regex.Split (subjectString,"<[^<>]*>>")，其中

很完整的一篇正则表达式总结

1、正则表达式-完结篇---工具类开发--- ? 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 '/.+/', 'email'=> '/^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$/', 'url'=> '/^http(s?):\/\/(?:[A-za-z0-9-]+\.)+[A-za-z]{2,4}(?:[\/ \?#][\/=\?%\-&~`@[\]\':+!\.#\w]*)?$/', 'currency'=> '/^\d+(\.\d+)?$/', 'number'=> '/^\d+$/', 'zip'=> '/^\d{6}$/', 'integer'=> '/^[-\+]?\d+$/', 'double'=> '/^[-\+]?\d+(\.\d+)?$/',

5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2'english'=> '/^[A-Za-z]+$/', 'qq'=> '/^\d{5,11}$/', 'mobile'=> '/^1(3|4|5|7|8)\d{9}$/', ); //定义其他属性 private$returnMatchResult=false; //返回类型判断 private$fixMode=null; //修正模式 private$matches=array(); //存放匹配结果 private$isMatch=false; //构造函数，实例化后传入默认的两个参数 public function __construct($returnMatchResult=false,$fixMode=null){ $this->returnMatchResult=$returnMatchResult; $this->fixMode=$fixMode; } //判断返回结果类型，为匹配结果matches还是匹配成功与否isMatch，并调用返回方法 private function regex($pattern,$subject){ if(array_key_exists(strtolower($pattern), $this->validate)) $pattern=$this->validate[$pattern].$this->fixMode; //判断后再连接上修正模式作为匹配的正则表达式 $this->returnMatchResult ?