当前位置：首页 > article >正文

awk命令进阶

article 2025/1/20 4:18:21

1.连接文件

awk 'NR==FNR{a[$1]=$0;next} NR!=FNR{ if(($5) in a) print a[$1],$0 }' file1 file2

命令详解：

这个命令的目的是将 file1 和 file2 基于某个共同字段进行连接（类似于 SQL 中的 JOIN 操作）。下面我们逐步解析它的工作原理。

1. NR==FNR{a[$1]=$0;next}

NR==FNR:
- NR 是当前处理的总行号（包括所有文件）。
- FNR 是当前文件的行号（只针对当前文件）。
- 当 NR==FNR 时，表示正在处理第一个文件（file1）。
a[$1]=$0:
- 将 file1 的每一行的内容（$0）存储到关联数组 a 中，键是第一个字段（$1）。
- 例如，如果 file1 的一行是 1 Alice，那么 a[1]="1 Alice"。
next:
- 跳过后续的命令，直接处理下一行。这意味着只有 file1 会被处理，file2 暂时不会被处理。

2. NR!=FNR{ if(($5) in a) print a[$1],$0 }

NR!=FNR:
- 当 NR!=FNR 时，表示正在处理第二个文件（file2）。
if(($5) in a):
- 检查 file2 的第五个字段（$5）是否存在于数组 a 中（即是否与 file1 的第一个字段匹配）。
print a[$1],$0:
- 如果匹配成功，打印 file1 中对应的行（a[$1]）和 file2 的当前行（$0）。

3. 问题分析

你的命令逻辑基本正确，但有一个小问题：

在 print a[$1],$0 中，$1 应该是 $5，因为你是用 file2 的第五个字段（$5）来匹配 file1 的第一个字段（$1）。
正确的写法应该是：print a[$5],$0。

4. 修正后的命令

awk 'NR==FNR{a[$1]=$0;next} ($5 in a) {print a[$5],$0}' file1 file2

5. 示例

假设有两个文件：

file1:

1 Alice
2 Bob
3 Charlie

file2:

10 20 30 40 1
11 21 31 41 2
12 22 32 42 4

运行命令后的输出：

1 Alice 10 20 30 40 1
2 Bob 11 21 31 41 2

解释：

file2 的第一行第五个字段是 1，与 file1 的第一行匹配，因此输出 1 Alice 10 20 30 40 1。
file2 的第二行第五个字段是 2，与 file1 的第二行匹配，因此输出 2 Bob 11 21 31 41 2。
file2 的第三行第五个字段是 4，在 file1 中没有匹配，因此不输出。

6. 总结

你的命令逻辑是正确的，但需要将 print a[$1],$0 改为 print a[$5],$0。
修正后的命令可以正确实现基于字段的 JOIN 操作。
如果还有其他需求（例如输出格式调整），可以进一步修改 print 部分。

awk 是一种强大的文本处理工具，支持各种进阶操作，包括条件判断、循环、数组、函数等。以下是一些常见的 awk 进阶操作及其示例：

1. 条件判断

awk 支持 if-else 条件判断，可以根据条件执行不同的操作。

示例：

awk '{if ($1 > 50) print $1, "High"; else print $1, "Low"}' file.txt

如果第一个字段大于 50，输出 High，否则输出 Low。

扩展用法

示例 1：多条件判断

awk '{if ($1 > 50) print $1, "High"; else if ($1 > 30) print $1, "Medium"; else print $1, "Low"}' file.txt

如果第一个字段大于 50，输出 High。
如果第一个字段大于 30 但小于等于 50，输出 Medium。
否则，输出 Low。

示例 2：结合正则表达式

awk '{if ($1 ~ /^[0-9]+$/) print $1, "Number"; else print $1, "Not a number"}' file.txt

如果第一个字段是纯数字，输出 Number。
否则，输出 Not a number。

示例 3：统计数量

awk '{if ($1 > 50) count++} END {print "High count:", count}' file.txt
awk '{if ($1 > 50) {count++; print $1, "big"} else {print $1, "small"}} END {print "High count:", count > "result.txt"}' file.txt

统计第一个字段大于 50 的行数，并在最后输出结果。

2. 循环

awk 支持 for 和 while 循环，可以遍历数组或重复执行某些操作。

示例 1：`for` 循环

awk '{for (i=1; i<=NF; i++) print $i}' file.txt

遍历每一行的所有字段并打印。

实际应用场景

这种结合循环和字段处理的功能在实际工作中有很多应用场景。以下是一些常见的例子：

1. 字段拆分与提取

场景：
- 文件中的每一行包含多个字段，需要将每个字段提取出来单独处理。
示例：
- 提取日志文件中的特定字段（如时间戳、错误码等）。
- 提取 CSV 文件中的某一列数据。

2. 数据清洗

场景：
- 文件中的数据格式不规范，需要对每个字段进行清洗（如去除空格、转换大小写等）。

示例：

将字段中的空格替换为下划线：

awk '{for (i=1; i<=NF; i++) gsub(/ /, "_", $i); print $0}' file.txt

3. 字段统计

场景：
- 统计每个字段的某些特征（如长度、是否包含特定字符等）。

示例：

统计每个字段的长度：

awk '{for (i=1; i<=NF; i++) print "Field", i, "length:", length($i)}' file.txt

4. 数据转换

场景：
- 将文件中的数据转换为另一种格式（如 JSON、SQL 等）。

示例：

将每一行转换为 JSON 格式：

awk '{printf "{\n"; for (i=1; i<=NF; i++) printf "  \"field%d\": \"%s\"", i, $i, (i<NF ? ",\n" : "\n"); print "}"}' file.txt

这是一个 awk 命令，用于将文件 file.txt 中的每一行数据转换为 JSON 格式。

{printf "{\n";...; print "}" }：对于文件 file.txt 中的每一行，先打印一个左花括号 { 作为 JSON 对象的开始，然后执行中间的循环和打印操作，最后打印一个右花括号 } 作为 JSON 对象的结束。

for (i=1; i<=NF; i++)：该循环从 1 开始，到 NF 结束。NF 表示当前行的字段数量。对于每一行，该循环会遍历该行的每个字段。

printf " \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n")：在循环中，对于每个字段，将其打印为 JSON 格式的键值对。

"field%d"：使用 printf 的格式化功能，将当前字段的编号 i 作为键的一部分，格式为 "field1"、"field2" 等。

"%s"：将当前字段的内容 $i 作为键对应的值。

(i<NF? ",\n" : "\n")：根据当前字段是否为该行的最后一个字段，决定是否打印逗号。如果 i 小于 NF，即不是最后一个字段，打印逗号和换行符 ,\n；如果是最后一个字段，只打印换行符 \n。

示例：
假设 file.txt 的内容如下

Alice 25 Female
Bob 30 Male

运行该 awk 命令后，输出如下：

{
  "field1": "Alice",
  "field2": "25",
  "field3": "Female"
}
{
  "field1": "Bob",
  "field2": "30",
  "field3": "Male"
}

使用说明：

将上述 awk 命令在终端中运行，确保文件 file.txt 存在。例如，如果你在 Linux 或 macOS 系统的终端中，可以直接输入：

awk '{printf "{\n"; for (i=1; i<=NF; i++) printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n"); print "}" }' file.txt

此命令会逐行读取 file.txt 的内容，将每行转换为一个 JSON 对象。

该命令适用于将简单的文本文件中的数据转换为基本的 JSON 格式，但需要注意，如果文件中包含特殊字符（如双引号 "），可能会导致生成的 JSON 格式不规范，需要额外的转义处理。

可能的优化：

转义特殊字符：

如果输入文件中可能包含特殊字符，如双引号、反斜杠等，需要添加转义逻辑。例如，可以使用 gsub(/"/, "\\\"", $i) 在 printf 之前对 $i 进行转义处理，将双引号替换为 \"。修改后的代码如下：

awk '{printf "{\n"; for (i=1; i<=NF; i++) { gsub(/"/, "\\\"", $i); printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n") }; print "}" }' file.txt

处理空字段：

如果文件中可能存在空字段，上述代码可能会生成不期望的 JSON 格式，例如 {"field1": "value1", "field2": "", "field3": "value3"}。你可以添加逻辑判断字段是否为空，如果为空，将其值设置为 null。例如：

awk '{printf "{\n"; for (i=1; i<=NF; i++) { if ($i == "") $i = "null"; else gsub(/"/, "\\\"", $i); printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n") }; print "}" }' file.txt

提高可读性：

可以添加更多的空格或缩进，使生成的 JSON 更具可读性，例如：

awk '{printf "{\n    "; for (i=1; i<=NF; i++) { if ($i == "") $i = "null"; else gsub(/"/, "\\\"", $i); printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n    " : "\n    ") }; print "}" }' file.txt

处理嵌套结构：

如果需要处理更复杂的结构，例如嵌套的 JSON 对象或数组，可能需要更复杂的 awk 逻辑或使用其他工具（如 jq）来处理。

5. 字段过滤

场景：
- 根据字段的值过滤数据。

示例：

只输出包含数字的字段：

awk '{for (i=1; i<=NF; i++) if ($i ~ /[0-9]+/) print $i}' file.txt

6. 字段重组

场景：
- 将字段重新组合成新的格式。

示例：

将字段逆序输出：

awk '{for (i=NF; i>=1; i--) printf "%s ", $i; print ""}' file.txt

7. 多文件处理

场景：
- 对多个文件进行相同的字段处理。

示例：

对多个文件逐字段输出：

awk '{for (i=1; i<=NF; i++) print $i}' file1.txt file2.txt

8. 结合正则表达式

场景：
- 对字段进行复杂的模式匹配和替换。

示例：

将字段中的邮箱地址提取出来：

awk '{for (i=1; i<=NF; i++) if ($i ~ /[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/) print $i}' file.txt

9. 生成报告

场景：
- 根据字段生成统计报告。

示例：

统计每个字段的唯一值：

awk '{for (i=1; i<=NF; i++) uniq[$i]++} END {for (key in uniq) print key, uniq[key]}' file.txt

10. 结合其他命令

场景：
- 将 awk 的输出传递给其他命令进行进一步处理。

示例：

将字段排序后输出：

awk '{for (i=1; i<=NF; i++) print $i}' file.txt | sort

示例 2：`while` 循环

awk '{i=1; while (i<=NF) {print $i; i++}}' file.txt

使用 while 循环实现同样的功能。

3. 数组

awk 支持关联数组（类似于字典或哈希表），可以用于统计、分组等操作。

示例 1：统计字段出现次数

bash

复制

awk '{count[$1]++} END {for (key in count) print key, count[key]}' file.txt

统计第一个字段中每个值的出现次数。

示例 2：分组求和

bash

复制

awk '{sum[$1] += $2} END {for (key in sum) print key, sum[key]}' file.txt

按第一个字段分组，对第二个字段求和。

4. 内置函数

awk 提供了许多内置函数，用于字符串处理、数学计算等。

示例 1：字符串长度

bash

复制

awk '{print length($0)}' file.txt

输出每一行的字符数。

示例 2：字符串截取

bash

复制

awk '{print substr($1, 1, 3)}' file.txt

输出第一个字段的前 3 个字符。

示例 3：数学函数

bash

复制

awk '{print sqrt($1)}' file.txt

计算第一个字段的平方根。

5. 多文件处理

awk 可以同时处理多个文件，并通过 NR 和 FNR 区分当前文件。

示例：

bash

复制

awk 'NR==FNR{a[$1]=$0; next} ($1 in a) {print a[$1], $0}' file1.txt file2.txt

将 file1.txt 和 file2.txt 基于第一个字段进行连接。

6. 自定义变量

awk 允许定义和使用自定义变量。

示例：

bash

复制

awk '{total += $1} END {print "Total:", total}' file.txt

计算第一个字段的总和。

7. BEGIN 和 END 块

BEGIN 和 END 是特殊的代码块，分别在处理输入之前和之后执行。

示例：

bash

复制

awk 'BEGIN {print "Start"} {print $0} END {print "End"}' file.txt

在处理文件之前输出 Start，处理完毕后输出 End。

8. 正则表达式匹配

awk 支持正则表达式，可以用于模式匹配。

示例：

bash

复制

awk '/error/ {print $0}' file.txt

输出包含 error 的行。

示例 2：字段匹配

bash

复制

awk '$1 ~ /^[0-9]+$/ {print $0}' file.txt

输出第一个字段为纯数字的行。

9. 输出重定向

awk 可以将输出重定向到文件。

示例：

bash

复制

awk '{print $1 > "output.txt"}' file.txt

将第一个字段写入 output.txt 文件。

10. 多条件组合

awk 支持逻辑运算符（&&、||、!），可以组合多个条件。

示例：

bash

复制

awk '$1 > 50 && $2 < 100 {print $0}' file.txt

输出第一个字段大于 50 且第二个字段小于 100 的行。

11. 自定义字段分隔符

awk 默认使用空格作为字段分隔符，但可以通过 -F 选项或 FS 变量自定义分隔符。

示例：

bash

复制

awk -F',' '{print $1}' file.csv

使用逗号作为分隔符，输出第一个字段。

12. 多行记录处理

awk 默认按行处理，但可以通过设置 RS（记录分隔符）处理多行记录。

示例：

bash

复制

awk 'BEGIN {RS="\n\n"} {print $0}' file.txt

将空行作为记录分隔符，处理多行记录。

13. 自定义输出格式

awk 支持 printf，可以格式化输出。

示例：

bash

复制

awk '{printf "Name: %-10s Age: %d\n", $1, $2}' file.txt

格式化输出，左对齐名称并固定宽度。

14. 调用外部命令

awk 可以通过 system 函数调用外部命令。

示例：

bash

复制

awk '{system("echo " $1)}' file.txt

对每一行的第一个字段调用 echo 命令。

15. 函数定义

awk 允许定义自定义函数。

示例：

bash

复制

awk 'function myfunc(x) {return x*2} {print myfunc($1)}' file.txt

定义一个函数 myfunc，将第一个字段的值乘以 2 并输出。

16. 处理大文件

awk 可以高效处理大文件，因为它逐行处理，不会将整个文件加载到内存中。

示例：

bash

复制

awk '{if ($1 > 1000) print $0}' largefile.txt

从大文件中筛选出第一个字段大于 1000 的行。

17. 处理 CSV 文件

awk 可以方便地处理 CSV 文件。

示例：

bash

复制

awk -F',' '{print $1, $3}' data.csv

输出 CSV 文件的第一列和第三列。

18. 处理 JSON 数据

虽然 awk 不是专门用于处理 JSON 的工具，但可以通过正则表达式提取简单 JSON 数据。

示例：

bash

复制

echo '{"name": "Alice", "age": 25}' | awk -F'"' '{print $4, $8}'

提取 JSON 中的 name 和 age 字段。

19. 性能优化

使用 next 跳过不必要的行。
避免在循环中频繁调用外部命令。
尽量使用内置函数而不是自定义逻辑。

20. 调试技巧

使用 print 输出中间结果。
使用 -d 选项（如 gawk 支持）启用调试模式。

通过掌握这些进阶操作，你可以更高效地使用 awk 处理复杂的文本任务。如果需要更详细的功能，可以参考 awk 的官方文档或使用 man awk 查看手册。

查看全文

http://www.kler.cn/a/510190.html

通信协议之多摩川编码器协议

ASP.NET Core - 配置系统之自定义配置提供程序

深入理解 SQL 中的 DATEDIFF 函数

R语言绘图

Maven在Win10上的安装教程

【WPS】【WORDEXCEL】【VB】实现微软WORD自动更正的效果

LlamaIndex环境配置

JAVA常用得工具类大全《持续更新》

《目标检测数据集下载地址》

Cloud Foundry，K8S，Mesos Marathon弹性扩缩容特性对比

Spring Boot 整合 Shiro详解

在线图片转为excel工具

Golang Gin系列-4：Gin Framework入门教程

Python自动化测试中定位隐藏菜单元素的策略

html的iframe页面给帆软BI发送消息

具身导航如何利用取之不尽的网络视频资源！RoomTour3D：基于几何感知的视频-指令训练调优

Web前端开发技术之HTMLCSS知识点总结

用nginx正向代理https网站

数据结构(链表哈希表)

LeetCode：78.子集

AI面板识别

统计学习算法——决策树

Hadoop•用Web UI查看Hadoop状态词频统计

Spring Boot + Apache POI 实现 Excel 导出：BOM物料清单生成器（支持中文文件名、样式美化、数据合并）

学习threejs，使用FlyControls相机控制器

速通Docker === 目录挂载卷映射

1.连接文件

1. 条件判断

扩展用法

示例 1：多条件判断

示例 2：结合正则表达式

示例 3：统计数量

2. 循环

示例 1：for 循环

实际应用场景

1. 字段拆分与提取

2. 数据清洗

3. 字段统计

4. 数据转换

5. 字段过滤

6. 字段重组

7. 多文件处理

8. 结合正则表达式

9. 生成报告

10. 结合其他命令

示例 2：while 循环

3. 数组

示例 1：统计字段出现次数

示例 2：分组求和

4. 内置函数

示例 1：字符串长度

示例 2：字符串截取

示例 3：数学函数

5. 多文件处理

示例：

6. 自定义变量

示例：

7. BEGIN 和 END 块

示例：

8. 正则表达式匹配

示例：

示例 2：字段匹配

9. 输出重定向

示例：

10. 多条件组合

示例：

11. 自定义字段分隔符

示例：

12. 多行记录处理

示例：

13. 自定义输出格式

示例：

14. 调用外部命令

示例：

15. 函数定义

示例：

16. 处理大文件

示例：

17. 处理 CSV 文件

示例：

18. 处理 JSON 数据

示例：

19. 性能优化

20. 调试技巧

相关文章：

示例 1：`for` 循环

示例 2：`while` 循环