利用Hadoop怎么对多Job进行并行处理?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
首先做如下配置:
1、修改mapred-site.xml添加调度器配置:
<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.FairScheduler</value>
</property>
2、添加jar文件地址配置:
<property>
<name>hadoopTest.jar</name>
<value>所生成jar的地址</value>
</property>
Java基本代码如下:
// 获取各个Job,有关Job的创建,这里就不贴上来了。
Job job_base = (Job) 。。。;
Job job_avg = (Job) 。。。;
Job job_runCount = (Job) 。。。;
Job job_activeUser = (Job) ....;
job_base.setJarByClass(CapuseDateTimerTask.class);
job_avg.setJarByClass(CapuseDateTimerTask.class);
job_runCount.setJarByClass(CapuseDateTimerTask.class);
job_activeUser.setJarByClass(CapuseDateTimerTask.class);
// 执行完job_base才开始并行以下三个Job;
if (job_base.waitForCompletion(true)) {
FileUtil.hdfsFileHandle(jobBase);
// 并行Job
job_avg.submit();
job_runCount.submit();
job_activeUser.submit();
}
boolean bln1 = job_avg.isComplete();
boolean bln2 = job_runCount.isComplete();
boolean bln3 = job_activeUser.isComplete();
// 计算Job是否完成
while (!bln1 || !bln2 || !bln3) {
bln1 = job_avg.isComplete();
bln2 = job_runCount.isComplete();
bln3 = job_activeUser.isComplete();
}
最后将这些代码组装至Main方法,使用Hadoop执行命令运行:
hadoop jar jar包名称 方法入口所在的类
如:
hadoop jar hadoopTest.jar ch03.test Test
可以通过50030端口来监控Job的并行状态,这里就不多说了!!
解释:
1、配置Jar地址可以解决打包所生成的jar包后,运行时出现ClassNotFound的问题;
2、给多个Job设定setJarByClass,经测试,如果不设定此类,运行时会出现ClassNotFound错误,其中CapuseDateTimerTask为Main方法所在的类名;
3、waitForCompletion与submit方法是有区别的,waitForCompletion是串行,而submit是并行,正是因为submit是并行所以后续的代码操作需要取其执行是否完成的状态来做判断处理即:isComplete();
4、以上Job采用的是:org.apache.hadoop.mapreduce.Job
看完上述内容,你们掌握利用Hadoop怎么对多Job进行并行处理的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注亿速云行业资讯频道,感谢各位的阅读!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。