当前位置: 首页 > article >正文

awk命令进阶

1.连接文件

awk 'NR==FNR{a[$1]=$0;next} NR!=FNR{ if(($5) in a) print a[$1],$0 }' file1 file2

命令详解:

这个命令的目的是将 file1 和 file2 基于某个共同字段进行连接(类似于 SQL 中的 JOIN 操作)。下面我们逐步解析它的工作原理。


1. NR==FNR{a[$1]=$0;next}

  • NR==FNR:

    • NR 是当前处理的总行号(包括所有文件)。

    • FNR 是当前文件的行号(只针对当前文件)。

    • 当 NR==FNR 时,表示正在处理第一个文件(file1)。

  • a[$1]=$0:

    • 将 file1 的每一行的内容($0)存储到关联数组 a 中,键是第一个字段($1)。

    • 例如,如果 file1 的一行是 1 Alice,那么 a[1]="1 Alice"

  • next:

    • 跳过后续的命令,直接处理下一行。这意味着只有 file1 会被处理,file2 暂时不会被处理。


2. NR!=FNR{ if(($5) in a) print a[$1],$0 }

  • NR!=FNR:

    • 当 NR!=FNR 时,表示正在处理第二个文件(file2)。

  • if(($5) in a):

    • 检查 file2 的第五个字段($5)是否存在于数组 a 中(即是否与 file1 的第一个字段匹配)。

  • print a[$1],$0:

    • 如果匹配成功,打印 file1 中对应的行(a[$1])和 file2 的当前行($0)。


3. 问题分析

你的命令逻辑基本正确,但有一个小问题:

  • 在 print a[$1],$0 中,$1 应该是 $5,因为你是用 file2 的第五个字段($5)来匹配 file1 的第一个字段($1)。

  • 正确的写法应该是:print a[$5],$0


4. 修正后的命令

awk 'NR==FNR{a[$1]=$0;next} ($5 in a) {print a[$5],$0}' file1 file2

5. 示例

假设有两个文件:

file1:

1 Alice
2 Bob
3 Charlie

file2:

10 20 30 40 1
11 21 31 41 2
12 22 32 42 4

运行命令后的输出:

1 Alice 10 20 30 40 1
2 Bob 11 21 31 41 2

解释:

  • file2 的第一行第五个字段是 1,与 file1 的第一行匹配,因此输出 1 Alice 10 20 30 40 1

  • file2 的第二行第五个字段是 2,与 file1 的第二行匹配,因此输出 2 Bob 11 21 31 41 2

  • file2 的第三行第五个字段是 4,在 file1 中没有匹配,因此不输出。


6. 总结

  • 你的命令逻辑是正确的,但需要将 print a[$1],$0 改为 print a[$5],$0

  • 修正后的命令可以正确实现基于字段的 JOIN 操作。

  • 如果还有其他需求(例如输出格式调整),可以进一步修改 print 部分。

awk 是一种强大的文本处理工具,支持各种进阶操作,包括条件判断、循环、数组、函数等。以下是一些常见的 awk 进阶操作及其示例:


1. 条件判断

awk 支持 if-else 条件判断,可以根据条件执行不同的操作。

示例:

awk '{if ($1 > 50) print $1, "High"; else print $1, "Low"}' file.txt
  • 如果第一个字段大于 50,输出 High,否则输出 Low

 扩展用法

示例 1:多条件判断
awk '{if ($1 > 50) print $1, "High"; else if ($1 > 30) print $1, "Medium"; else print $1, "Low"}' file.txt
  • 如果第一个字段大于 50,输出 High

  • 如果第一个字段大于 30 但小于等于 50,输出 Medium

  • 否则,输出 Low

示例 2:结合正则表达式
awk '{if ($1 ~ /^[0-9]+$/) print $1, "Number"; else print $1, "Not a number"}' file.txt
  • 如果第一个字段是纯数字,输出 Number

  • 否则,输出 Not a number

示例 3:统计数量
awk '{if ($1 > 50) count++} END {print "High count:", count}' file.txt
awk '{if ($1 > 50) {count++; print $1, "big"} else {print $1, "small"}} END {print "High count:", count > "result.txt"}' file.txt
  • 统计第一个字段大于 50 的行数,并在最后输出结果。


2. 循环

awk 支持 for 和 while 循环,可以遍历数组或重复执行某些操作。

示例 1:for 循环

awk '{for (i=1; i<=NF; i++) print $i}' file.txt
  • 遍历每一行的所有字段并打印。

实际应用场景

这种结合循环和字段处理的功能在实际工作中有很多应用场景。以下是一些常见的例子:


1. 字段拆分与提取
  • 场景

    • 文件中的每一行包含多个字段,需要将每个字段提取出来单独处理。

  • 示例

    • 提取日志文件中的特定字段(如时间戳、错误码等)。

    • 提取 CSV 文件中的某一列数据。


2. 数据清洗
  • 场景

    • 文件中的数据格式不规范,需要对每个字段进行清洗(如去除空格、转换大小写等)。

  • 示例

    • 将字段中的空格替换为下划线:

      awk '{for (i=1; i<=NF; i++) gsub(/ /, "_", $i); print $0}' file.txt

3. 字段统计
  • 场景

    • 统计每个字段的某些特征(如长度、是否包含特定字符等)。

  • 示例

    • 统计每个字段的长度:

      awk '{for (i=1; i<=NF; i++) print "Field", i, "length:", length($i)}' file.txt

4. 数据转换
  • 场景

    • 将文件中的数据转换为另一种格式(如 JSON、SQL 等)。

  • 示例

    • 将每一行转换为 JSON 格式:

      awk '{printf "{\n"; for (i=1; i<=NF; i++) printf "  \"field%d\": \"%s\"", i, $i, (i<NF ? ",\n" : "\n"); print "}"}' file.txt

这是一个 awk 命令,用于将文件 file.txt 中的每一行数据转换为 JSON 格式。

{printf "{\n";...; print "}" }:对于文件 file.txt 中的每一行,先打印一个左花括号 {  作为 JSON 对象的开始,然后执行中间的循环和打印操作,最后打印一个右花括号 } 作为 JSON 对象的结束。

for (i=1; i<=NF; i++):该循环从 1 开始,到 NF 结束。NF 表示当前行的字段数量。对于每一行,该循环会遍历该行的每个字段。

printf " \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n"):在循环中,对于每个字段,将其打印为 JSON 格式的键值对。

"field%d":使用 printf 的格式化功能,将当前字段的编号 i 作为键的一部分,格式为 "field1""field2" 等。

"%s":将当前字段的内容 $i 作为键对应的值。

(i<NF? ",\n" : "\n"):根据当前字段是否为该行的最后一个字段,决定是否打印逗号。如果 i 小于 NF,即不是最后一个字段,打印逗号和换行符 ,\n;如果是最后一个字段,只打印换行符 \n

示例
假设 file.txt 的内容如下

Alice 25 Female
Bob 30 Male

运行该 awk 命令后,输出如下:

{
  "field1": "Alice",
  "field2": "25",
  "field3": "Female"
}
{
  "field1": "Bob",
  "field2": "30",
  "field3": "Male"
}

使用说明

将上述 awk 命令在终端中运行,确保文件 file.txt 存在。例如,如果你在 Linux 或 macOS 系统的终端中,可以直接输入:

awk '{printf "{\n"; for (i=1; i<=NF; i++) printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n"); print "}" }' file.txt

此命令会逐行读取 file.txt 的内容,将每行转换为一个 JSON 对象。

该命令适用于将简单的文本文件中的数据转换为基本的 JSON 格式,但需要注意,如果文件中包含特殊字符(如双引号 "),可能会导致生成的 JSON 格式不规范,需要额外的转义处理。

可能的优化

转义特殊字符

如果输入文件中可能包含特殊字符,如双引号、反斜杠等,需要添加转义逻辑。例如,可以使用 gsub(/"/, "\\\"", $i) 在 printf 之前对 $i 进行转义处理,将双引号替换为 \"。修改后的代码如下:

awk '{printf "{\n"; for (i=1; i<=NF; i++) { gsub(/"/, "\\\"", $i); printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n") }; print "}" }' file.txt

处理空字段

如果文件中可能存在空字段,上述代码可能会生成不期望的 JSON 格式,例如 {"field1": "value1", "field2": "", "field3": "value3"}。你可以添加逻辑判断字段是否为空,如果为空,将其值设置为 null。例如:

awk '{printf "{\n"; for (i=1; i<=NF; i++) { if ($i == "") $i = "null"; else gsub(/"/, "\\\"", $i); printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n" : "\n") }; print "}" }' file.txt

提高可读性

可以添加更多的空格或缩进,使生成的 JSON 更具可读性,例如:

awk '{printf "{\n    "; for (i=1; i<=NF; i++) { if ($i == "") $i = "null"; else gsub(/"/, "\\\"", $i); printf "  \"field%d\": \"%s\"", i, $i, (i<NF? ",\n    " : "\n    ") }; print "}" }' file.txt

处理嵌套结构

如果需要处理更复杂的结构,例如嵌套的 JSON 对象或数组,可能需要更复杂的 awk 逻辑或使用其他工具(如 jq)来处理。


5. 字段过滤
  • 场景

    • 根据字段的值过滤数据。

  • 示例

    • 只输出包含数字的字段:

      awk '{for (i=1; i<=NF; i++) if ($i ~ /[0-9]+/) print $i}' file.txt


6. 字段重组
  • 场景

    • 将字段重新组合成新的格式。

  • 示例

    • 将字段逆序输出:

      awk '{for (i=NF; i>=1; i--) printf "%s ", $i; print ""}' file.txt


7. 多文件处理
  • 场景

    • 对多个文件进行相同的字段处理。

  • 示例

    • 对多个文件逐字段输出:

      awk '{for (i=1; i<=NF; i++) print $i}' file1.txt file2.txt


8. 结合正则表达式
  • 场景

    • 对字段进行复杂的模式匹配和替换。

  • 示例

    • 将字段中的邮箱地址提取出来:

      awk '{for (i=1; i<=NF; i++) if ($i ~ /[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/) print $i}' file.txt


9. 生成报告
  • 场景

    • 根据字段生成统计报告。

  • 示例

    • 统计每个字段的唯一值:

      awk '{for (i=1; i<=NF; i++) uniq[$i]++} END {for (key in uniq) print key, uniq[key]}' file.txt


10. 结合其他命令

  • 场景

    • 将 awk 的输出传递给其他命令进行进一步处理。

  • 示例

    • 将字段排序后输出:

      awk '{for (i=1; i<=NF; i++) print $i}' file.txt | sort

示例 2:while 循环

awk '{i=1; while (i<=NF) {print $i; i++}}' file.txt
  • 使用 while 循环实现同样的功能。


3. 数组

awk 支持关联数组(类似于字典或哈希表),可以用于统计、分组等操作。

示例 1:统计字段出现次数

bash

复制

awk '{count[$1]++} END {for (key in count) print key, count[key]}' file.txt
  • 统计第一个字段中每个值的出现次数。

示例 2:分组求和

bash

复制

awk '{sum[$1] += $2} END {for (key in sum) print key, sum[key]}' file.txt
  • 按第一个字段分组,对第二个字段求和。


4. 内置函数

awk 提供了许多内置函数,用于字符串处理、数学计算等。

示例 1:字符串长度

bash

复制

awk '{print length($0)}' file.txt
  • 输出每一行的字符数。

示例 2:字符串截取

bash

复制

awk '{print substr($1, 1, 3)}' file.txt
  • 输出第一个字段的前 3 个字符。

示例 3:数学函数

bash

复制

awk '{print sqrt($1)}' file.txt
  • 计算第一个字段的平方根。


5. 多文件处理

awk 可以同时处理多个文件,并通过 NR 和 FNR 区分当前文件。

示例:

bash

复制

awk 'NR==FNR{a[$1]=$0; next} ($1 in a) {print a[$1], $0}' file1.txt file2.txt
  • 将 file1.txt 和 file2.txt 基于第一个字段进行连接。


6. 自定义变量

awk 允许定义和使用自定义变量。

示例:

bash

复制

awk '{total += $1} END {print "Total:", total}' file.txt
  • 计算第一个字段的总和。


7. BEGIN 和 END 块

BEGIN 和 END 是特殊的代码块,分别在处理输入之前和之后执行。

示例:

bash

复制

awk 'BEGIN {print "Start"} {print $0} END {print "End"}' file.txt
  • 在处理文件之前输出 Start,处理完毕后输出 End


8. 正则表达式匹配

awk 支持正则表达式,可以用于模式匹配。

示例:

bash

复制

awk '/error/ {print $0}' file.txt
  • 输出包含 error 的行。

示例 2:字段匹配

bash

复制

awk '$1 ~ /^[0-9]+$/ {print $0}' file.txt
  • 输出第一个字段为纯数字的行。


9. 输出重定向

awk 可以将输出重定向到文件。

示例:

bash

复制

awk '{print $1 > "output.txt"}' file.txt
  • 将第一个字段写入 output.txt 文件。


10. 多条件组合

awk 支持逻辑运算符(&&||!),可以组合多个条件。

示例:

bash

复制

awk '$1 > 50 && $2 < 100 {print $0}' file.txt
  • 输出第一个字段大于 50 且第二个字段小于 100 的行。


11. 自定义字段分隔符

awk 默认使用空格作为字段分隔符,但可以通过 -F 选项或 FS 变量自定义分隔符。

示例:

bash

复制

awk -F',' '{print $1}' file.csv
  • 使用逗号作为分隔符,输出第一个字段。


12. 多行记录处理

awk 默认按行处理,但可以通过设置 RS(记录分隔符)处理多行记录。

示例:

bash

复制

awk 'BEGIN {RS="\n\n"} {print $0}' file.txt
  • 将空行作为记录分隔符,处理多行记录。


13. 自定义输出格式

awk 支持 printf,可以格式化输出。

示例:

bash

复制

awk '{printf "Name: %-10s Age: %d\n", $1, $2}' file.txt
  • 格式化输出,左对齐名称并固定宽度。


14. 调用外部命令

awk 可以通过 system 函数调用外部命令。

示例:

bash

复制

awk '{system("echo " $1)}' file.txt
  • 对每一行的第一个字段调用 echo 命令。


15. 函数定义

awk 允许定义自定义函数。

示例:

bash

复制

awk 'function myfunc(x) {return x*2} {print myfunc($1)}' file.txt
  • 定义一个函数 myfunc,将第一个字段的值乘以 2 并输出。


16. 处理大文件

awk 可以高效处理大文件,因为它逐行处理,不会将整个文件加载到内存中。

示例:

bash

复制

awk '{if ($1 > 1000) print $0}' largefile.txt
  • 从大文件中筛选出第一个字段大于 1000 的行。


17. 处理 CSV 文件

awk 可以方便地处理 CSV 文件。

示例:

bash

复制

awk -F',' '{print $1, $3}' data.csv
  • 输出 CSV 文件的第一列和第三列。


18. 处理 JSON 数据

虽然 awk 不是专门用于处理 JSON 的工具,但可以通过正则表达式提取简单 JSON 数据。

示例:

bash

复制

echo '{"name": "Alice", "age": 25}' | awk -F'"' '{print $4, $8}'
  • 提取 JSON 中的 name 和 age 字段。


19. 性能优化

  • 使用 next 跳过不必要的行。

  • 避免在循环中频繁调用外部命令。

  • 尽量使用内置函数而不是自定义逻辑。


20. 调试技巧

  • 使用 print 输出中间结果。

  • 使用 -d 选项(如 gawk 支持)启用调试模式。


通过掌握这些进阶操作,你可以更高效地使用 awk 处理复杂的文本任务。如果需要更详细的功能,可以参考 awk 的官方文档或使用 man awk 查看手册。


http://www.kler.cn/a/510190.html

相关文章:

  • 通信协议之多摩川编码器协议
  • ASP.NET Core - 配置系统之自定义配置提供程序
  • 深入理解 SQL 中的 DATEDIFF 函数
  • R语言绘图
  • Maven在Win10上的安装教程
  • 【WPS】【WORDEXCEL】【VB】实现微软WORD自动更正的效果
  • LlamaIndex环境配置
  • JAVA常用得工具类大全《持续更新》
  • 《目标检测数据集下载地址》
  • Cloud Foundry,K8S,Mesos Marathon弹性扩缩容特性对比
  • Spring Boot 整合 Shiro详解
  • 在线图片转为excel工具
  • Golang Gin系列-4:Gin Framework入门教程
  • Python自动化测试中定位隐藏菜单元素的策略
  • html的iframe页面给帆软BI发送消息
  • 具身导航如何利用取之不尽的网络视频资源!RoomTour3D:基于几何感知的视频-指令训练调优
  • Web前端开发技术之HTMLCSS知识点总结
  • 用nginx正向代理https网站
  • 数据结构(链表 哈希表)
  • LeetCode:78.子集
  • AI面板识别
  • 统计学习算法——决策树
  • Hadoop•用Web UI查看Hadoop状态词频统计
  • Spring Boot + Apache POI 实现 Excel 导出:BOM物料清单生成器(支持中文文件名、样式美化、数据合并)
  • 学习threejs,使用FlyControls相机控制器
  • 速通Docker === 目录挂载 卷映射