Apache Spark 3.x 相较于 Spark 2.x 在多个方面展现出更显著的受欢迎程度,这些差异主要体现在性能提升、新特性引入以及社区和生态系统的支持上。具体如下:
性能提升
- Spark 2.x:引入了新的执行引擎 Tungsten,相比 Spark 1.x,Tungsten 执行引擎的性能提高了10倍。
- Spark 3.x:性能相比 Spark 2.4 提升近2倍,且 Spark 3.0 引入了自适应查询执行,可以根据数据和硬件资源的情况自动调整查询执行计划,提高查询性能。
新特性引入
- Spark 2.x:重要的特性包括全流程代码生成技术、向量化技术提升parquet文件的扫描吞吐量等。
- Spark 3.x:引入了自适应查询执行、动态资源分配、改进的Python API等。
社区和生态系统支持
- Spark 3.x:得到了更广泛的社区支持,新特性的引入和性能的提升使得更多的开发者和组织选择使用 Spark 3.x。小米基于 Spark 3.1 建设了新一代一站式数据开发平台,显示出企业对 Spark 3.x 的青睐。
综上所述,Spark 3.x 在性能、新特性和社区支持方面都展现了其优势,因此目前看来,Spark 3.x 比 Spark 2.x 更受欢迎。