上图是以阿里从2015年到2018年双十一的例子,左边的图为单日作业量,中间的图为单日处理数据量,右边的图为成本的曲线。事实证明,阿里通过飞天平台以及技术能力,几乎做到了使业务增长的速度和成本增长的速度相适应。
在此基础上又做了以下部分优化工作:
1、引擎侧:• NativeEngine+LLVM CodeGen,Vectorization+SIMD
• CBO+HBO,Dynamic DAG
• 针对Input/Shuffling海量数据,新引入“富结构化数据”
• 数据可以按Range/Hash方式存储,支持一级Index和Order
2、存储侧:兼容开源Apache ORC,全新的C++ Writer和改进的 C++ Reader,读取性能对比CFile2和开源ORC均快50%+。
3、资源侧:一套跨集群数据、计算调度能力,将多个集群的
服务器做成一台计算机。
4、调度系统优化:平均集群利用率70%,除了优化单作业指标,更偏重整个集群的吞吐率。
5、通过混布技术,提升在线服务器利用率到50%以上。同时支持双十一场景的业务弹性。
部分数据和案例:
• 2015年,SortBenchmark,MaxCompute 100TB GreySort冠军。
• 2016年,SortBenchmark, EMR 100TB CloudSort冠军。
• 2017年,MaxCompute+PAI,全球首家100TB规模TPCx-Bigbench测试通过。
• 2018年,MaxCompute+PAI,指BigBench标继续提升1X+,继续保持全球最高分数。
• 2018年,Flink内部版是社区性能数倍,2019年开源。
• 2019年,EMR TPC-DS 10TB全球最快
• 2019年,MaxCompute+PAI,指标继续提升,保持全球第一,30TB性能快一倍,成本低一半。