当前位置：首页 > article >正文

Shell 编程之正则表达式与文本处理器

article 2025/2/27 2:00:44

正则表达式

正则表达式又称正规表达式、常规表达式

正则表达式是由普通字符与元字符组成的文字模式

正则表达式一般用于脚本编程与文本编辑器中

元字符总结

^ 匹配输入字符串的开始位置。除非在方括号表达式中使用，表示不包含该字符集合。要匹配“^”

字符本身，请使用 “\^”

$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 “$” 也匹配 ‘\n’ 或 ‘\r’. 要匹配“$” 字符本身，请使用 “\$”

. 匹配除“\r\n” 之外的任何单个字符

\ 反斜杠，又叫转义字符，去除其后紧跟的元字符或通配符的特殊意义

* 匹配前面的子表达式零次或多次。要匹配“*” 字符，请使用 “\*”

[] 字符集合。匹配所包含的任意一个字符。例如，“[abc]” 可以匹配 “plain” 中的 “a”

[^] 赋值字符集合。匹配未包含的一个任意字符。例如，“[^abc]” 可以匹配 “plain” 中任何一个字母

[n1-n2] 字符范围。匹配指定范围内的任意一个字符。例如，“[a-z]” 可以匹配 “a” 到 “z” 范围内的任一个小写字母字符。

注意：只有连字符（ - ）在字符组内部，并且出现在两个字符之间时，才能表示字符的范围；如

果出现在字符组的开头，则只能表示连字符本身

{n} n 是一个非负整数，匹配确定的 n 次。例如， “o{2}” 不能匹配 “Bob” 中的 “o” ，但是能匹配 “food”

中的“oo”

{n,} n 是一个非负整数，至少匹配 n 次。例如， “o{2,}” 不能匹配 “Bob” 中的 “o” ，但能匹配 “foooood” 中的所有 o 。 “o{1,}” 等价于 “o+” 。 “o{0,}” 则等价于 “o*”

{n,m} m 和 n 均为非负整数，其中 n<=m ，最少匹配 n 次且最多匹配 m 次

扩展正则表达式

+ 作用：重复一个或者一个以上的前一个字符

？作用：零个或者一个的前一个字符

| 作用：使用或者（or ）的方式找出多个字符

() 作用：查找“ 组 ” 字符串

()+ 作用：辨别多个重复的组

文本处理器

sed 工具

读取： sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓

冲区中（又称模式空间， pattern space ）。

执行：默认情况下，所有的 sed 命令都在模式空间中顺序地执行，除非指定了行

的地址，否则 sed 命令将会在所有的行上依次执行。

显示：发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。

sed 命令常见用法

-e 或 --expression= ：表示用指定命令或者脚本来处理输入的文本文件。

-f 或 --file= ：表示用指定的脚本文件来处理输入的文本文件。

-h 或 --help ：显示帮助。

-n 、 --quiet 或 silent ：表示仅显示处理后的结果。

-i ：直接编辑文本文件。“操作 ” 用于指定对文件操作的动作行为，也就是 sed 的命令

a ：增加，在当前行下面增加一行指定内容。

c ：替换，将选定行替换为指定内容。

d ：删除，删除选定的行。

i ：插入，在选定行上面插入一行指定内容。

p ：打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与 “-n” 选项一起使用。

s ：替换，替换指定字符。

y ：字符转换

awk 工具

awk 常见用法

awk 选项 ' 模式或条件 { 编辑指令 }' 文件 1 文件 2 … //过滤并输出文件中符合条件的内容

awk -f 脚本文件文件 1 文件 2 … //从脚本中调用编辑指令 ,过滤并输出内容

awk 包含几个特殊的内建变量（可直接用）

FS ：指定每行文本的字段分隔符，默认为空格或制表位。

NF ：当前处理的行的字段个数。

NR ：当前处理的行的行号（序数）。

$0 ：当前处理的行的整行内容。

$n ：当前处理行的第 n 个字段（第 n 列）。

FILENAME ：被处理的文件名。

RS ：数据记录分隔，默认为 \n ，即每行为一条记录。

sort 工具

sort 是一个以行为单位对文件内容进行排序的工具，也可以根据不同的数据类型来排序

-f ：忽略大小写；

-b ：忽略每行前面的空格；

-M ：按照月份进行排序；

-n ：按照数字进行排序；

-r ：反向排序；

-u ：等同于 uniq ，表示相同的数据仅显示一行；

-t ：指定分隔符，默认使用 [Tab] 键分隔；

-o < 输出文件 > ：将排序后的结果转存至指定文件；

-k ：指定排序区域。

uniq 工具

-c：进行计数；

-d ：仅显示重复行；

-u ：仅显示出现一次的行。

tr 工具

-c ：取代所有不属于第一字符集的字符；

-d ：删除所有属于第一字符集的字符；

-s ：把连续重复的字符以单独一个字符表示；

-t ：先删除第一字符集较第二字符集多出的字符。

查看全文

http://www.kler.cn/a/281101.html

深入理解PyTorch中的`torch.topk`函数！！！（个人总结，为了方便我自己复习，要是同时也能帮助到大家就更好了）

二叉树（binary tree）遍历详解

精心收集：ChatGPT无限制使用镜像网站集合【2024-8月最新】~

WxPython可视化编辑器

分布式中间件

每天一个数据分析题（五百零五）- 提升方法

C++ | Leetcode C++题解之第378题有序矩阵中第K小的元素

docker compose用法详解

C++ | Leetcode C++题解之第355题设计推特

数据结构——快速排序

如何使用IDEA搭建Mybatis框架环境（详细教程）

Code Practice Journal | Day 56_Graph06

第三方软件测评中心分享：科技成果鉴定测试的必要性和流程

SQL数据完整性的守护者：主键与唯一键的精妙应用

Elasticsearch的部署和使用

WPF 界面缓存优化

Beyond Compare忽略特定格式文本,忽略匹配正则表达式

摄影灯驱动方式主要有哪些？采用恒流模式还是恒压模式？升压芯片电路还是降压芯片电路？一对多还是多对多？雅欣神助攻零成本解决所有疑惑

Ruff :是一个用Rust编写的极快的 Python linter 和代码格式化程序

武器弹药制造5G智能工厂物联数字孪生平台，推进制造业数字化转型

相关文章：