大数据中AWK命令的示例分析

发布时间：2021-11-20 17:26:48 来源：亿速云阅读：175 作者：小新栏目：大数据

这篇文章将为大家详细讲解有关大数据中AWK命令的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

对于下面的nginx日志access.log，用脚本分析出访问ip的Top 10。
其实这个题不难，但是考察了几个常用的shell 命令，awk、uniq、sort、head，我觉得对于做大数据开发、运维、数仓等来说都是应该必备的。


2018-11-20T23:37:40+08:00 119.15.90.30 - "GET /free.php?proxy=out_hp&sort=&page=1 HTTP/1.1" "/free.php" - 200 0.156 362 6849/7213 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - - - "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /partner.php HTTP/1.1" "/partner.php" - 200 0.016 457 6534/6956 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://blog.csdn.net/ithomer/article/details/6566739 - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/bootstrap.min.css HTTP/1.1" "/css/bootstrap.min.css" - 200 0.045 398 19402/19757 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/hint.min.css HTTP/1.1" "/css/hint.min.css" - 200 0.000 393 1635/1989 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"

来上答案

 cat access.log | awk '{print $2}'| uniq -c | sort -k1 -nr| head -10

其实这个问题还有很多变种，比如除了脚本，用你最熟悉的语言写出来，还有如果文件过大，超过了内存限制，怎么处理。不过这些都是题外话了，我们今天主要讲一下awk在工作中的一些简单的应用。

大数据中AWK命令的示例分析

其实awk的功能非常强大，不过今天我们主要来讲讲在我们的工作中比较常用的awk用法。


awk '{[pattern] action}' {filenames}

切割文件

-F 指定拆分文件的分隔符，默认是空格或者 \t 比如上面的日志我们想获取第二列的ip地址，我们可以这样写

awk -F ' ' '{print $2}'  access.log

空格我们是可以不用写的，我这里写出来做一个示范。

其实还有一种特殊字符，比如hive中默认分隔符是0x01，这种的使用awk怎么写呢？

awk -F '\\001' '{ print $1 }' abcd.txt

内置变量的使用

$0 用于打印出整行的字段.
$n 由 -F 参数指定的分隔符切割之后，$n用于打印出来第几个字段，索引从1开始
NF 每行数据切分之后，有多少列，比如我们可以用print $NF 来打印出最后一列

有一些时候我们可以用awk 截取其中的某几个字段拼接出来我们想要的一些语句。
比如我们想截取上面access.log里面的ip字段，然后生成一些sql，插入到数据库。


awk '{print "insert into mytable(ip) values('\''"$2"'\'');"}'  access.log > /tmp/ip.sql

大数据中AWK命令的示例分析

有人会问，这种场景一般什么时候会用呢，比如你有一万条或者更多的数据，你完全可以写一个sql来插入，但是如果是数量太多的话，一次性写入太多数据，会导致锁表，这个时候其他人就没法插入了，如果是线上的生产环境就更不允许了，所以对于一些类似的操作，我们可以拆分出多个sql来一个个的执行，这样单个sql锁表的时间就会减少，避免长时间锁表带来的数据库不可用。

正则匹配

有时候我们只想打印出来一些我们想要的列，我们可以通过正则匹配来做。

比如我们想打印出来上面的access.log中117开头的ip，可以这样做.

awk '$2 ~ /^117/ {print $2}' access.log

类sql功能

其实awk还可以帮我们实现一些简单的类似sql的功能，我们也简单说一下。

比如我们有一个下面的学生表

id 班级姓名
id class name

1 1班张三
2 2班李四
3 1班王五
4 3班赵六

比如我们想统计每个班级有多少同学，可以使用如下命令

awk '{a[$2]++} END {for(i in a){print i"人数 : "a[i]}}' student.txt

关于“大数据中AWK命令的示例分析”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

向AI问一下细节

大数据中AWK命令的示例分析

切割文件

内置变量的使用

正则匹配

类sql功能

猜你喜欢

最新资讯

相关推荐

相关标签