温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何用mapreduce处理数据倾斜问题

发布时间:2022-01-04 10:56:17 来源:亿速云 阅读:347 作者:iii 栏目:云计算

本篇内容主要讲解“如何用mapreduce处理数据倾斜问题”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何用mapreduce处理数据倾斜问题”吧!

map /reduce 程序执行时, reduce 节点大部分执行完毕,但是有一个或者几个 reduce
节点运行很慢,导致整个程序的处理时间很长,这是因为某一个 key 的条数比其他 key 多
很多(有时是百倍或者千倍之多),这条 key 所在的 reduce 节点所处理的数据量比其他节
点就大很多,从而导致某几个节点迟 迟运行不完,此称之为数据倾斜.
解决方法:
(1)设置一个 hash 份数 N,用来对条数众多的 key 进行打散。
(2)对有多条重复 key 的那份数据进行处理:从 1 到 N 将数字加在 key 后面作为新 key,
如果需要和另一份数据关联的话,则要重写比较类和分发类。如此实现多条 key 的平均分发。
(3)上一步之后, key 被平均分散到很多不同的 reduce 节点。如果需要和其他数据关联,
为了保证每个 reduce 节点上都有关联的 key,对另一份单一 key 的数据进行处理:循环的
从 1 到 N 将数字加在 key 后面作为新 key
用上述的方法虽然可以解决数据倾斜,但是当关联的数据量巨大时,如果成倍的增长某
份数据,会导致 reduce shuffle 的数据量变的巨大,得不偿失,从而无法解决运行时间慢的
问题.
在 两份数据中找共同点,比如两份数据里除了关联的字段以外,还有另外相同含义的字段,
如果这个字段在所有 log 中的重复率比较小,则可以用这个字段作为计算 hash 的值,如果
是数字,可以用来模 hash 的份数,如果是字符可以用 hashcode 来模 hash 的份数(当然数
字为了避免落到同一个 reduce 上 的数据过多,也可以用 hashcode),这样如果这个字段
的值分布足够平均的话,就可以解决上述的问题。
解决方法: 1. 增加 reduce 的 jvm 内存 2. 增加 reduce 个数

到此,相信大家对“如何用mapreduce处理数据倾斜问题”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI