这篇文章给大家分享的是有关Hive的技巧命令有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
•desc extended/formatted table;可以查看更详细的表信息,例如:数据存储路径、字段分隔符等。区别是formatted 是格式化后的信息,更方便阅读。
•set hive.fetch.task.conversion=more; 或者 hive --hiveconf hive.fetch.task.conversion=more 可以做一些不启动mapreduce job的查询。
•add file ${path}/a.py;add file ${path}/b.py;可以简写为:add file ${path}/a.py ${path}/b.py;(以空格隔开)。
•SELECT uid,COALESCE(sex,0) FROM TABLE; 将sex字段值为NULL的转换为0,方便0、1化处理。
•可以通过ALTER TABLE table_name SET SERDEPROPERTIES('serialization.null.format'='');修改空值描述符。
•Hive自带函数collect_set返回的array分隔符是\x02。
•show tables '*a*'; 用正则方式筛选表名包含a的表。
•concat_ws(',', collect_set(channel)) 实现行转列,select col1, myCol2 from lateralview LATERAL VIEW explode(split(col2,',')) myTable1 as myCol2; 实现列转行,如果需要添加where条件 需要放在as 别名之后。
•hive查询导出数据的时候也可以指定分隔符:FIELDS TERMINATED BY '\t'。
•hive- 0.12.0.tar.gz\hive-0.12.0\src\ql\src\java\org\apache\hadoop\hive\ql\udf hive自带UDF的源代码路径。
•设置你提交job的优先级队列:SET mapreduce.job.queuename=default。
•set hive.exec.parallel参数控制在同一个sql中没有依赖的job是否可以同时运行(hive.exec.parallel,hive.exec.parallel.thread.number)。
•UNIQUEJOIN:select .. from JOIN TABLES (A,B,C) WITH KEYS (A.key, B.key, C.key) where ....
感谢各位的阅读!关于“Hive的技巧命令有哪些”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。