HIVE实现wordcount的过程

发布时间：2021-08-21 22:01:48 阅读：190 作者：chen 栏目：编程语言

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要讲解了“HIVE实现wordcount的过程”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“HIVE实现wordcount的过程”吧！

1、建表并关联数据：
进入hive命令行：
hive
执行：
create external table wordcounts(line string) row format delimited fields terminated by '\n' stored as textfile location '/input/wordcount';

2、创建ruozedata.txt文件，并上传hdfs中的/input/wordcount目录下。
vi ruozedata.txt
hello,ruoze
hello,jepsondb
hello,www.ruozedata.com
hi,man
hi,gril

上传命令：hdfs dfs -put ruozedata.txt /input/wordcount

3、进入HIVE，查询是否已经将数据关联到表中
select * from wordcounts;

4、进入HIVE，进行拆分，把每行数据拆分成单词，这里需要用到一个hive的内置表生成函数（UDTF）：explode(array)，参数是array，其实就是行变多列：
split是拆分函数，与java的split功能一样，这里是按照逗号拆分，再对子查询中的结果进行group by word，执行完hql语句如下：
select word, count(*) from (select explode(split(line, ",")) as word from wordcounts) t group by word;

总结：hive比较简便，对于比较复杂的统计操作可以建一些中间表。

感谢各位的阅读，以上就是“HIVE实现wordcount的过程”的内容了，经过本文的学习后，相信大家对HIVE实现wordcount的过程这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是亿速云，小编将为大家推送更多相关知识点的文章，欢迎关注！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

HIVE实现wordcount的过程

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签