前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >扫盲:”正则表达式”是什么?

扫盲:”正则表达式”是什么?

原创
作者头像
星哥玩云
发布2022-06-06 20:01:07
5420
发布2022-06-06 20:01:07
举报
文章被收录于专栏:开源部署开源部署

是一篇”正则表达式”扫盲贴,如果你还不理解什么是正则表达式,看这篇文章就对了。

如果你已经掌握了”正则表达式”,就不用再在这篇文章上浪费时间了。

坚持看到底,就能明白什么是”正则表达式”。

我们先不解释什么是”正则表达式”,因为在本来就不明白的情况下,再去看一些专业的解释,会更加不明白。

所以,我们先来描述一个小场景,看完这个场景,你就能明白什么是”正则表达式”。

首先,我们在桌面上创建一个txt文本文件,将这个文件命名为”正则.txt”,如下

文件创建完毕后,双击此文件即可使用windows中的”记事本”打开此文件,文件内容如下图所示

可以看到,文件中有3行文本,假设,此时我们想要在文本中搜索”hello”这个词,我们该怎么办呢?

没错,按下快捷键 “Ctrl + F”,即可在”记事本”中搜索”hello”字符串,如下

可以看到,上图中,hello一共出现过3次,

第一行与第三行的”hello”都位于行首

第二行的hello位于行尾

但是不管hello字符串位于哪里,文本中一共有3个”hello”字符串

所以,”hello”可以”被匹配到”3次。

好了,我们已经搜索到了hello字符串,满足了我们的需求。

但是,现在需求变了。

现在我们想要搜索 “位于行首的hello字符串” 。

也就是说,字符串不仅要是”hello”,而且还要位于行首,需要同时满足这两个条件的字符串才算满足条件。

那么,上图第二行中的hello字符串则不符合我们的要求,因为虽然第二行中包含”hello”字符串,但是它并不位于行首,而”第一行的hello”与”第三行的hello”都位于行首,所以,如果按照要求,只有第一行与第三行中的hello能被搜索到。

那么,我们应该怎样去搜索呢?

我们刚才的需求就是:”找到文本中位于行首的hello字符串”

让你搜索,你会怎么做?

没错,我们需要有一种方法,这种方法能够告诉计算机,只查找”位于行首的hello字符串”

这个时候,就需要依靠”正则表达时式”了,”正则表达式”可以帮助我们实现这样的功能,但是,由于windows记事本并不支持”正则表达式”,所以,我们无法通过”记事本”完成上述需求,我们只能安装其他程序,并且这个程序必须支持”正则表达式”,此处,我们安装”sublime text”或者”notepad++”,它们是windows系统下比较常用的、流行的文本编辑器,此处以”sublime text”为例,使用”sublime text”打开示例中使用到的文本文件,如下图所示

同样,在”sublime text”中使用快捷键”ctrl + F”,可以搜索hello字符串,如下图所示。

如上图所示,3个hello字符串都能被搜索到。

那么,回归到刚才的话题,我们怎样才能只搜索”位于行首的hello字符串”呢?方法如下

首先,点击下图中红线标注部分的按钮,这个按钮被选中后,”sublime text”才会以”正则表达式”模式工作。

然后在搜索框中输入”^hello” (符号”^”为键盘中数字键6对应的符号),即可达到我们的要求,即只查找位于行首的”hello”字符串。

查找结果如下图所示,只有位于行首的hello被匹配到了。

我们可以把上例中的”^hello”理解为”正则表达式”,这个”正则表达式”想要表达的意思就是”位于行首的hello字符串”。

到目前为止,我们已经初步的接触到了”正则表达式”,但是我们还没有解释过”正则表示式”。

现在,回过头来,再看看什么是正则表示式。

如下描述引用自百度百科

正则表达式,又称 规则表达式。 正则表达式的英语原文为:Regular Expression,常简写为regex、regexp或RE,正则表达式是计算机科学的一个概念。 正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

现在再来看这个专业的解释,是不是比较容易理解了?”正则表达式”又称”规则表达式”,使用”正则表达式”可以让我们”表达出”某种规则,就像刚才使用到的”^hello”,我们使用这个正则表达式,表达出了我们的想法,我们的想法就是搜索出位于行首的hello字符串,在正则表达式中,”^”就表示行首,所以,”^hello”就是表示位于行首的hello字符串,这就是我们想要表达的”规则”,这就是”正则”,我们利用这个正则表达式,检索出了”符合规则”的文本。

那么现在,你对”正则表达式”应该有了初步的概念了吧。

再啰嗦一遍,”正则”就是”规则”,”正则表达式”就是能够让我们表达出自己想法的规则,只要学会了这种规则,我们就能够表达自己的想法。

好了,”正则扫盲阶段”完成。

其实,只要你自己理解了什么是正则,再去学习正则就很快了,怕就怕,你从心里觉得自己不会,那样就没有办法继续了。

当grep与正则结合在一起时,grep就会根据”正则的含义”在文本中查找符合条件的字符串。

什么是正则?什么是grep?前文介绍过了,我们就不再废话了,直接切入正题

我们通过grep命令来实践一下正则,仍然以前文中提到的例子作为切入点,示例如下:

我们在系统中创建了一个文件,用于测试正则,文件名为regex

如上图所示,文件中有三行文本,每行都包含”hello”这个单词,如果我们想要利用grep在此文本中搜索包含”hello”的行,则可以使用如下命令。

没错,由于regex文件中的每一行都包含hello,所以,所有行都被打印出来了。

如果,我们只想要打印出”以hello开头的行”(hello位于行首的行),该怎么办呢?没错,使用正则表达式即可,示例如下

前文中已经介绍过,在正则表达式中,”^”表示”锚定行首”(符号”^”是数字键6对应的符号),所以”^hello”表示只匹配位于行首的hello字符串。

由于regex文本中的第二行的hello位于行尾,所以,第二行并不符合条件,于是,只有第一行与第三行被打印了出来。

“^”在正则中表示锚定行首,那么,什么符号在正则中表示锚定行尾呢?

“$”在正则中表示锚定行尾,符号”$”为数字键4对应的符号,那么我们来看看怎样锚定行尾,仍然以之前的regex文本为例,regex文本中的第二行中,单词hello位于行的尾部,所以,我们可以使用”hello$”,去匹配”位于行尾的hello”字符串,示例如下:

如上所示,”hello$”表示匹配位于行尾的hello字符串,只有第二行满足条件,所以,只有第二行被输出了。

我们已经学会了”^”与”$”,我们知道,它们在正则表达式中分别代表锚定行首与锚定行尾,那么,我们将它们结合在一起使用,”^hello$”表示什么意思呢?聪明如你一定猜到了,”^hello$”表示hello既位于行首,同时也位于行尾,换句话说,就是整行中只有一个单词hello,没有其他单词,那么是这样吗,我们来试一试,在regex中新加一行,只包含hello一个单词,如下。

blob.png
blob.png

现在,我们使用正则表达式”^hello$”,看看能不能匹配到文本中的第四行。

如上图所示,我们成功额匹配到了regex文本中的第四行,并且将第四行打印了出来。

看到这里,我想你应该已经学会举一反三了,”^hello$”表示hello即位于行首也位于行尾,那么”^$”表示什么意思呢?没错,”^$”表示行首与行尾相连,换句话说,就是”空行”,我们在regex中添加一行”空行”,看看能不能匹配到,示例如下:

我们直接在第二行后按回车键,于是第三行变成了”空行”,注意,”空行”表示当前行不包含任何字符,包含”空格”的行不能被当做”空行”。

现在,我们来使用正则表达式”^$”,试试能不能匹配到文本中的第三行,如下图所示。

可以看到,文本中的”空行”被匹配到了。

现在,我们已经能够灵活的锚定”行首”与”行尾”了,那么,我们能不能锚定”词首”或”词尾”呢?

必须能啊,正则表达式中,”\<“表示锚定词首,”\>”表示锚定词尾。

为了方便示例,我们再准备另外一个测试文件REG,文件内容如下。

上图中,”abchello”中包含”hello”,但是”hello”位于”abchello”这个单词的词尾,同理,”helloabc”中也包含”hello”,但是”hello”位于”helloabc”这个单词的词首。

刚才提到过,正则表达式中,”\<“表示锚定词首,”\>”表示锚定词尾,现在我们就来实验一下。

如上图所示,”\<hello”表示以hello作为词首的单词将会被匹配到,”hello\>”表示以hello作为词尾的单词将会被匹配到。

同理,我们也可以将”\<“与”\>”结合在一起使用,示例如下。

为了测试,我们在REG文件中又添加了一行,内容如下

上图中,”\<hello\>”表示当hello既是词首又是词尾时则会被匹配到,换句话说,就是当hello作为一个独立的单词时,则会被匹配到,如上图所示,REG文本中第4行被匹配到了,因为只有第4行中才包含了一个独立的hello单词。

其实,正则表达式中,除了”\<“与”\>”能够表示锚定词首与锚定词尾以外,我们还可以使用”\b”去代替”\<“和”\>”,”\b”既能锚定词首,也能锚定词尾,示例如下。

聪明如你,只要懂得了”\<“与”\>”,再结合上述示例理解”\b”,绝对不是事儿。

“\b”还有一个孪生兄弟,”\B”,虽然它们长得很像,但是它们的功能完全不一样。

“\b”是用来锚定词首、锚定词尾的,换句话说,”\b”是用来匹配”单词边界”的,而”\B”则正好相反。

“\B”是用来匹配”非单词边界”的,这样说并不容易理解,看了示例就会秒懂,示例如下。

上例中的”\Bhello”表示,只要hello不是词首,就会被匹配到,如上图所示。

而”\bhello”表示,只要hello是词首,就会被匹配到,所以,”\B”与”\b”所要表达的意思正好相反。

“hello\b”与”hello\B”同理,此处不再赘述,快动手试试吧。

在正则表达式中,又有”基础正则表达式”和”扩展正则表达式”之分(此处不用纠结,后面会专门对扩展正则表达式进行总结,我们现在所展示的都是基本正则表达式,学会了”基本正则表达式”,再看”扩展正则表达式”,绝对分分钟搞定)。

有些符号在基础正则表达式中和扩展正则表达式中是通用的,有些则不然。

比如我们今天学习到的这些符号,就是通用的,不管是在基础正则还是扩展正则中,它们表示的含义都是相同的。

细心如你一定发现了,今天所使用的正则表达式都与”位置”有关,比如”行首”、”行尾”、”词首”、”词尾”等,我们可以把这些符号理解为与”位置匹配”有关的正则表达式。

我们今天所认识的符号只是正则表达式中的一部分,之后的文章我们会继续总结正则表达式,只要坚持看完它们,你肯定会掌握正则表达式的。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com