死亡是一座永恒的灯塔

0%

如何使用正则表达式?

什么是正则表达式

字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等等。字符串是0个或更多个字符的序列。文本也就是文字,字符串。说某个字符串匹配某个正则表达式,通常是指这个字符串里有一部分(或几部分分别)能满足表达式给出的条件。

在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。

正则表达式 - 简介

除非您以前使用过正则表达式,否则您可能不熟悉一些术语。但是,毫无疑问,您已经使用过不涉及脚本的某些正则表达式概念。

例如,您很可能使用 ? 和 通配符来查找硬盘上的文件。? 通配符匹配文件名中的 0 个或 1 个字符,而 通配符匹配零个或多个字符。像 data(\w)?.dat 这样的模式将查找下列文件:

1
2
3
4
5
data.dat
data1.dat
data2.dat
datax.dat
dataN.dat

使用 字符代替 ? 字符扩大了找到的文件的数量。data..dat 匹配下列所有文件:

1
2
3
4
5
6
data.dat
data1.dat
data2.dat
data12.dat
datax.dat
dataXYZ.dat

尽管这种搜索方法很有用,但它还是有限的。通过理解 * 通配符的工作原理,引入了正则表达式所依赖的概念,但正则表达式功能更强大,而且更加灵活。

正则表达式的使用,可以通过简单的办法来实现强大的功能。下面先给出一个简单的示例:

img

  • ^ 为匹配输入字符串的开始位置。
  • [0-9]+匹配多个数字, [0-9] 匹配单个数字,+ 匹配一个或者多个。
  • abc$匹配字母 abc 并以 abc 结尾,$ 为匹配输入字符串的结束位置。

我们在写用户注册表单时,只允许用户名包含字符、数字、下划线和连接字符(-),并设置用户名的长度,我们就可以使用以下正则表达式来设定。

img

以上的正则表达式可以匹配 runoob、runoob1、run-oob、run_oob, 但不匹配 ru,因为它包含的字母太短了,小于 3 个无法匹配。也不匹配 runoob$, 因为它包含特殊字符。

js中使用正则表达式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>

<script>
var str = "123abc";
var patt1 = /^[0-9]+abc$/;
document.write(str.match(patt1));
</script>

</body>
</html>

运行结果:123abc

为什么使用正则表达式

典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。

通过使用正则表达式,可以:

  • 测试字符串内的模式。
    例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
  • 替换文本。
    可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
  • 基于模式匹配从字符串中提取子字符串。
    可以查找文档内或输入域内特定的文本。

例如,您可能需要搜索整个网站,删除过时的材料,以及替换某些 HTML 格式标记。在这种情况下,可以使用正则表达式来确定在每个文件中是否出现该材料或该 HTML 格式标记。此过程将受影响的文件列表缩小到包含需要删除或更改的材料的那些文件。然后可以使用正则表达式来删除过时的材料。最后,可以使用正则表达式来搜索和替换标记。

实用工具

正则表达式在线测试

正则大全

常用的正则表达式

统一社会信用代码

1
/[0-9A-HJ-NPQRTUWXY]{2}\d{6}[0-9A-HJ-NPQRTUWXY]{10}/

迅雷链接

1
/^thunderx?:\/\/[a-zA-Z\d]+=$/

ed2k链接(宽松匹配)

1
/^ed2k:\/\/\|file\|.+\|\/$/

磁力链接(宽松匹配)

1
/^magnet:\?xt=urn:btih:[0-9a-fA-F]{40,}.*$/

子网掩码

1
/^(?:\d{1,2}|1\d\d|2[0-4]\d|25[0-5])(?:\.(?:\d{1,2}|1\d\d|2[0-4]\d|25[0-5])){3}$/

linux”文件夹”路径

1
/^\/(\w+\/?)+$/

linux”文件”路径

1
/^\/(\w+\/)+\w+\.\w+$/

window下”文件夹”路径

1
/^[a-zA-Z]:\\(?:\w+\\?)*$/

window下”文件”路径

1
/^[a-zA-Z]:\\(?:\w+\\)*\w+\.\w+$/

A股代码

1
/^(s[hz]|S[HZ])(000[\d]{3}|002[\d]{3}|300[\d]{3}|600[\d]{3}|60[\d]{4})$/

大于等于0, 小于等于150, 支持小数位出现5, 如145.5, 用于判断考卷分数

1
/^150$|^(?:\d|[1-9]\d|1[0-4]\d)(?:.5)?$/

html注释

1
/^<!--[\s\S]*?-->$/

md5格式(32位)

1
/^[a-f0-9]{32}$/

版本号格式必须为X.Y.Z

1
/^\d+(?:\.\d+){2}$/

视频链接地址(视频格式可按需增删)

1
/^https?:\/\/.*?(?:swf|avi|flv|mpg|rm|mov|wav|asf|3gp|mkv|rmvb|mp4)$/i

图片链接地址(图片格式可按需增删)

1
/^https?:\/\/.*?(?:gif|png|jpg|jpeg|webp|svg|psd|bmp|tif)$/i

24小时制时间(HH:mm:ss)

1
/^(?:[01]\d|2[0-3]):[0-5]\d:[0-5]\d$/

12小时制时间(hh:mm:ss)

1
/^(?:1[0-2]|0?[1-9]):[0-5]\d:[0-5]\d$/

base64格式

1
/^\s*data:(?:[a-z]+\/[a-z0-9-+.]+(?:;[a-z-]+=[a-z0-9-]+)?)?(?:;base64)?,([a-z0-9!$&',()*+;=\-._~:@\/?%\s]*?)\s*$/i

数字/货币金额(支持负数、千分位分隔符)

1
/(?:^[-]?[1-9]\d{0,2}(?:$|(?:,\d{3})*(?:$|(\.\d{1,2}$))))|(?:(?:^[0](\.\d{1,2})?)|(?:^[-][0]\.\d{1,2}))$/

数字/货币金额 (只支持正数、不支持校验千分位分隔符)

1
/(?:^[1-9]([0-9]+)?(?:\.[0-9]{1,2})?$)|(?:^(?:0){

参考资料

菜鸟教程-正则表达式

常用正则大全

坚持技术分享,您的支持将鼓励我继续创作!