温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

hadoop下Illegal partition for问题怎么处理

发布时间:2021-12-09 16:21:00 来源:亿速云 阅读:127 作者:iii 栏目:云计算

这篇文章主要介绍“hadoop下Illegal partition for问题怎么处理”,在日常操作中,相信很多人在hadoop下Illegal partition for问题怎么处理问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”hadoop下Illegal partition for问题怎么处理”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

1.背景:

    对一个文件中的key进行过滤,需要过滤的key存储在另一个文件中。需要过滤的key数量很大,有上亿条,因此采用bloomfilter等方法不太合适。同时文件中的带过滤的key可能会很多也可能很少。因此采用value二次排序的方法过滤,将需要过滤的key做成key0,真实的key做成key1。使用分区函数和key比较函数将相同的key发送到同一个机器上,只要判断key的第一个key值key0是否存在就可以确定key是否需要过滤。

2.问题:

    采用二次排序,需要实现getPartition函数。考虑到hash函数可能返回负数,因此返回是使用了这样一个函数Math.abs(k)%numReduceTasks。  一开始测试的时候没有发现问题,后来将输入文件增多后发现程序会报Illegal partition for错误。

3.处理过程:

    直接求助google, 从http://blog.csdn.net/hezuoxiang/article/details/6878026 中看出来,错误是因为分区函数返回了负数,这个值不合理。一时有点懵,难道Math.abs(x)返回的不是正数?再次求助google, 明白了原来x很大(溢出变成负数)或者很小的负数时,即超过了int的表示范围。返回会是个负数。至此,知道了问题的关键,通过hash得到的k值太大,或者太小,超过了int的可表示范围。嗯,c/c++程序员用java写hadoop就是一堆坑要踩。

4.解决方法:

    (1) 换一个hash函数,使得hash值在int能表示的范围内。

     (2) 对hash函数的值先取模在取绝对值 Math.abs(k % numReduceTasks);。

到此,关于“hadoop下Illegal partition for问题怎么处理”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI