Hive是什么

发布时间：2020-08-04 17:19:38 阅读：194 作者：Leah 栏目：编程语言

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这期内容当中小编将会给大家带来有关Hive是什么，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

1、什么是Hive？

（1）Hive的定义

Hive一个可以将结构化的数据文件映射为一张数据库表并提供类SQL查询功能的数据仓库工具，而且它是基于Hadoop的。因此，从本质上来看，Hive是将SQL转换为MapReduce程序的工具。因为，比直接用MapReduce开发效率更高，Hive的主要作用就是用来做离线数据分析。

（2）Hive架构

用户接口：包括 CLI 、JDBC/ODBC 、WebGUI 。其中， CLI(command line interface)为 shell 命令行；JDBC/ODBC 是 Hive 的 JAVA 实现，与传统数据库JDBC 类似；WebGUI 是通过浏览器访问 Hive。

元数据存储：通常是存储在关系数据库如 mysql/derby 中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

解释器、编译器、优化器、执行器：完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS中，并在随后有 MapReduce 调用执行。

（3）Hive数据模型

Hive中所有的数据都存储在HDFS中，没有专门的数据存储格式。在创建表时指定数据中的分隔符，Hive就可以映射成功，解析数据。Hive中包含以下数据模型：

db：在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹；

table：在hdfs中表现所属db目录下一个文件夹；

external table：数据存放位置可以在 HDFS 任意指定路径；

partition：在hdfs中表现为table目录下的子目录；

bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。

2、为什么要用Hive？

（1）Hive与传统数据库对比

Hive是什么

Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表，但应用场景完全不同，Hive只适合用来做批量数据统计分析。

（2）Hive的优势

Hive利用HDFS存储数据，利用MapReduce查询分析数据。因为直接使用Hadoop MapReduce处理数据，会面临人员学习成本太高的问题，而且MapReduce实现复杂查询逻辑开发难度太大。而使用Hive，操作接口采用类SQL语法，提供快速开发的能力的同时还避免了去写MapReduce，从而减少开发人员的学习成本，功能扩展更加方便。

上述就是小编为大家分享的Hive是什么了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注亿速云行业资讯频道。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

Hive是什么

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签