温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Apache Arrow 晋升为Apache基金会顶级项目

发布时间:2020-06-21 22:17:42 来源:网络 阅读:1116 作者:suleexx 栏目:开发技术

Apache软件基金会于2月17日宣布Apache Arrow晋升成为一个新的顶级项目(Top-Level Project),提供跨系统的数据层列式内存分析(Columnar In-Memory Analytics),来加速大数据分析的效率和速度。ASF宣称,Arrow可以百倍的提升大数据分析的性能,极大的降低跨系统间的沟通成本,支持多系统间运作。

Arrow是数据结构、算法和跨程序语言的组合,提供不同种类系统间数据共享基础,包含SQL执行引擎(如DrillImpala)、数据分析系统 (如PandasSpark)、流式和队列系统(如HerronKafkaStorm),以及储存系统(如ParquetKuduCassandraHBase)。

另外,使用者现在可以用CC++PythonJava等程序语言来执行Arrow的程序代码,Apache ArrowDrill项目副总裁Jacques Nadeau表示,在未来12个月内还将增加对RJavaScriptJulia的支持。

Arrow除了支持传统的关系数据库之外,也支持动态Schema结构的数据,例如,Arrow可以处理物联网、Log文件等常用的JSON格式 数据。在性能方面, Arrow特别优化排序的局部性(Cache Locality)、流量管道(Pipelining)和单一指令多重数据(Single Instruction Multiple DataSIMD),来发挥CPU的性能。

ASF表示,在许高负载中,70%~80%的CPU资源都用在系统间串行化(Serialize)和解串行化 (Deserialize)数据,而Arrow让数据可以不必经过串行化、解串行化或内存复制,就能够在系统和处理程序中共享,藉此提升CPU的使用性能。

此外,目前已经有13个主要大数据开源项目的开发者连手打造Arrow项目,而这13个开源项目包含了CalciteCassandra DrillHadoopHBaseImpalaKudu(培育期)、ParquetPhoenixSparkStormPandas Ibis

Jacques Nadeau表示,ASF预期在未来几年,世界上大多数的数据将会使用Arrow的技术来分析。

目前,Apache Arrow的代码已经可以在Apache2.0的许可下使用,


参考文档:

http://www.itdadao.com/article/393103/

https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html


向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI