这篇文章主要介绍Cloudera Enterprise 6.2.0更新了什么,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
Cloudera Enterprise 6.2.0包括了许多新功能,可用性改进以及性能提升。Cloudera Enterprise 6.2.0同时也包括很多组件版本的更新,如下:
组件 | 组件描述 | 版本 |
Hadoop | 可靠的,可扩展的,分布式的存储和计算平台 | v3.0.0 |
HBase | 实时读写访问的可扩展的记录和表的存储 | v2.1.2 |
Hive | 具备类SQL接口和ODBC/JDBC驱动的元数据知识库连接BI应用和Hadoop | v2.1.1 |
Hue | 遵循Apache许可协议的基于浏览器的桌面Hadoop接口 | v4.2.0 |
Impala | 遵循Apache许可协议的、针对存放在HDFS和HBase数据的实时SQL查询引擎 | v3.2.0 |
Kafka | 高度可扩展的、容错的发布订阅制消息系统 | V2.1.0 |
Yarn | Hadoop各组件资源协调 | V3.0.0 |
Flume | 收集和聚合日志和事件数据,实时流写入HDFS或HBase的分布式框架 | v1.9.0 |
Pig | 处理存放在Hadoop里的数据的高级数据流语言 | v0.17.0 |
Solr | 文本、模糊数学和分面搜索引擎 | v7.4.0 |
Spark | 支持循环数据流和内存计算的高速通用数据处理引擎 | v2.4 |
Sqoop | 为集成Hadoop和关系数据库的数据传输引擎 | v1.4.7 |
Zookeeper | 高可靠的分布式协同服务 | v3.4.5 |
Kudu | 一种新的列式存储 | V1.9 |
Cloudera Manager:
1.在Cloudera Manager中支持共享数据体验(Shared Data Experience,SDX)。Cloudera Manager现在支持创建一个或多个“计算集群”,为具有更强隔离性和可靠性的独立租户提供不同的工作负载,同时使用“数据上下文”(data context)抽象操作共享数据,元数据,安全和治理。这允许在每个租户的管理中,通过部署来实现存储和计算的分离,并与私有云基础设施进行协作。
2.BDR在集群间做数据复制时支持云对象存储。Cloudera BDR现在支持将存储在HDFS中的Hive和Impala表直接复制到使用S3和ADLS进行表存储的集群中,从而实现针对混合云用例的定期同步。
3.支持在YARN中调度GPU资源。Cloudera Manager和YARN一起支持对多个工作负载共享的GPU资源进行自动检测,隔离和使用报告,以便用户在集群中请求像GPU这种专有资源时可以被分配到相应的节点上。
4.Automated wire encryption (TLS)设置和秘钥轮换现在可用于最初未使用TLS的现有CDH集群。
5.针对安全集群中的Hive的AWS/Azure凭据处理,为共享集群中的多个Hive用户提供对S3/ADLS数据的透明访问,同时保持云凭据的安全性并远离最终用户。
6.支持在Cloudera Manager中配置TLS安全的Hive Metastore数据库。
7.跨集群网络带宽测试工具。Cloudera Manager现在有一个API来测试集群之间的网络带宽,有助于确定基础架构是否适合分离存储和计算服务
8.自动化的对重复主机进行检测和主机名迁移。Cloudera Manager现在可以检测并拒绝重复加入集群的主机,并且可以优雅地容忍托管主机的主机名更改,从而更好地支持自动部署。这个问题可以参考Fayson之前的文章《0519-如何解决Cloudera Manager主机页面出现重复主机异常》
Hue:
1.在HUE中,我们显著改进了Impala查询的故障排查体验,以便SQL开发人员能够更快地了解正在发生的事情,花费的时间以及应该优化哪里。
Impala:
1.Impala Web UI中添加了一个新部分(/admission),可提供对Admission Control资源池,运行和排队查询以及其他相关指标的查看。
2.添加了一个新的护栏(guardrail),当查询产生的行数多于护栏(guardrail)限制时自动取消。
3.用户现在可以设置默认文件格式查询选项,该选项将应用于未指定STORED AS子句的CREATE TABLE命令。
4.(预览)零接触元数据:目前,如果是非Impala引擎,例如Hive或Spark将新分区添加到现有表或新表中,Impala用户需要运行REFRESH table或INVALIDATE metadata操作后才能访问它们。在6.2中,我们引入了一种自动机制,可以避免Impala用户手动刷新元数据。在可配置的时间段内(默认为30秒),Impala用户可以自动访问现有表的新添加的分区以及Impala之外的新添加的表。
Hive:
1.编译锁删除:由于HiveServer2(HS2)中存在通用编译锁,因此在Hive中编译单个大型查询可能会阻止所有其他较小查询的编译。在6.2中,已删除此锁,并对查询启用并行编译。并行级别是可配置的,默认设置为3。
2.改进了连接池代理的可配置性(DBCP和BoneCP):配置更改为连接池代理,用于从HiveServer2连接到Hive Metastore,例如DBCP和BoneCP需要重新编译jar。 现在,在6.2中,可以通过更改hive-site.xml文件来完成。
3.Hive现在支持Google Cloud Storage作为表的数据存储。
安全:
1.HMS Metadata Read Authorization: 在6.2之前,HMS API有一个Sentry插件,授权所有元数据更改(写入)。现在在6.2中,Sentry的权限也扩展到了读取元数据。默认情况下,为了向后兼容性,此功能会被关闭。启用此功能后,直接访问HMS API的用户(例如SparkSQL用户)现在必须至少具有对对象的SELECT访问权限才能查看与该对象相关的元数据。请注意,Hive和Impala DESCRIBE命令也类似地过滤用户看到的元数据。
Navigator:
1.列序号 - 现在跟踪列添加到表中的顺序。
2.元数据清除改进:清除可以设置为更高的优先级 - 在确定的时间运行(run at exact time)。注意:Navigator UI将不可用,但不会丢失元数据或审计。
3.批量更新API:合作伙伴产品和客户集成的元数据更新速度提高了100倍
HBase:
1.串行复制(Serial replication)。此前HBase复制最终是一致的。这意味着更新可以无序传递到replication的end-points。Serial replication是replication的一个标志(flag),可确保为replication的end-points传递更新。
2.支持Intel Optane内存DC持久内存。 客户可以将DC持久性内存用于BucketCache,从而可以创建比DRAM更大的bucket cache。
3.Minor replication improvements(新配置选项,验证复制工具的改进,bug修复)。
Kudu:
1.现在,Kudu可以部署在跨机架,数据中心(DC)或可用区(AZ)的集群中。Kudu Master会将tablet分布到跨机架,DC或AZ,以便在发生故障时提供持续可用性。如果发生机架,DC或AZ中断,不需要手动进行故障转移。
Platform:
1.支持部署到Ubuntu 18
以上是“Cloudera Enterprise 6.2.0更新了什么”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。