tungsten-sort有哪些优点

发布时间：2021-12-16 17:04:47 阅读：146 作者：iii 栏目：云计算

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要介绍“tungsten-sort有哪些优点”，在日常操作中，相信很多人在tungsten-sort有哪些优点问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”tungsten-sort有哪些优点”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

spark实现了多种shuffle方法，通过 spark.shuffle.manager来确定。暂时总共有三种：hash shuffle、sort shuffle和tungsten-sort shuffle，从1.2.0开始默认为sort shuffle。

spark在1.4以后可以通过（spark.shuffle.manager = tungsten-sort）开启Tungsten-sort shuffle。如果Tungsten-sort 发现自己无法处理，则会自动使用 Sort Based Shuffle进行处理。Tungsten-sort优化点主要有：

直接在serialized binary data上操作，不需要反序列化，使用unsafe内存copy函数直接copy数据。
提供cache-efficient sorter ShuffleExternalSorter 排序压缩记录指针和partition ids,使用一个8bytes的指针，把排序转化成了一个指针数组的排序。
spilling的时候不需要反序列化和序列化
spill的merge过程也无需反序列化即可完成，但需要shuffle.unsafe.fastMergeEnabled的支持

当且仅当下面条件都满足时，才会使用新的Shuffle方式：

Shuffle dependency 不能带有aggregation 或者输出需要排序
Shuffle 的序列化器需要是 KryoSerializer 或者 Spark SQL's 自定义的一些序列化方式.* > Shuffle 文件的数量不能大于 16777216
序列化时，单条记录不能大于 128 MB

tungsten-sort有哪些优点

##优点很多性能的优化

##缺点

不可以在mapper端排序
不稳定
没有提供off-heap排序缓存

到此，关于“tungsten-sort有哪些优点”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注亿速云网站，小编会继续努力为大家带来更多实用的文章！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

tungsten-sort有哪些优点

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签