小编给大家分享一下Hadoop中的MapReduce是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
在MapReduce中,它也是主从结构,主节点:JobTracker,从节点:TaskTracker。主节点只有一个从节点有很多个,主节点在主机上,从节点分布到其他机器上。
JobTracker:
作用:
1、负责接收用户提交的作业;
2、负责把计算任务分给TaskTracker执行;
3、监控TaskTracker的执行情况;
TaskTracker:
作用:
1、执行JobTracker分配的计算任务;
JobClient:
概念:是用户作业与JobTracker交互的主要接口。
作用:
1、负责提交作业,负责启动;
2、跟踪任务执行;
3、访问任务状态和日志等;
Hadoop中基于RPC的通信协议
1、JobSubmissionProtocol:是JobClient与JobTracker通信的接口。
执行过程:TaskTracker每隔一段时间向JobTracker发送hearbeat(心跳机制)提交当前TaskTracker所在机
器的内存,CPU,磁盘等状态信息,是否可以接收新任务等信息;JobTracker接收到hearbeat
给TaskTracker返回需要所做的job或task操作,是否开启新的任务。TaskTracker可以从取
得JobTracker取得当前文件系统路径,需要执行Job的Jar文件路径等.
2、InterTrackerProtocol:是TaskTracker与JobTracker通信的接口。
作用:主要用来提交,执行Job和取得当前Job状态;JobClient可以通过此协议提交Job(submitJob),
取得当前Job的参数,状态,Counter,Task状态,文件系统路径,jar文件路径,所有Job的状
态,还有Job队列的信息,此外JobClient还可以提交KillJob和设定Job优先级等任务到 JobTracker。
MapReduce中驱动默认设置:
InputFormat | TextInputFormat |
MapperClass | IdentityMapper |
MapOutputKeyClass | LongWritable |
MapOutputValueClass | Text |
PartitionerClass | HashPartitioner |
ReduceClass | IdentityReduce |
OutputKeyClass | LongWritable |
OutputValueClass | Text |
OutputFormatClass | TextOutputFormat |
MapReduce中常见的算法
1、单词计数
2、数据去重
3、排序
4、Top k
5、选择
6、投影
7、分组
8、多表连接
9、单表关联
MapReduce原理
MapReduce为什么能实现失败检测?
正是由于采用了无共享框架,所有MapReduce才能够实现失败检测,这也意味着各个任务之间彼此独立。
MapReduce作业:
MapReduce作业(Job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息等。
注意:在MapReduce中不能处理文件名以_(下划线)开头的文件.
以上是“Hadoop中的MapReduce是什么”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。