Java的Hadoop FileInputFormat切片机制怎么理解

发布时间：2021-12-09 14:23:06 阅读：122 作者：iii 栏目：大数据

Java开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

本篇内容主要讲解“Java的Hadoop FileInputFormat切片机制怎么理解”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Java的Hadoop FileInputFormat切片机制怎么理解”吧!

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。

思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？

切片与MapTask并行度决定机制

数据块：Block是HDFS物理上把数据分成一块一块，默认大小是128M。

数据切片：数据切片只是在逻辑上对输入数据进行分片，并不会在磁盘上将其切分成片进行存储。

Java的Hadoop FileInputFormat切片机制怎么理解

Job提交流程源码和切片源码详解

waitForCompletion() ## 这是调用的方法 submit();// 1建立连接  connect();      // 1）创建提交Job的代理    new Cluster(getConfiguration());      // （1）判断是本地yarn还是远程      initialize(jobTrackAddr, conf);// 2 提交jobsubmitter.submitJobInternal(Job.this, cluster)  // 1）创建给集群提交数据的Stag路径  Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);  // 2）获取jobid ，并创建Job路径  JobID jobId = submitClient.getNewJobID();  // 3）拷贝jar包到集群copyAndConfigureFiles(job, submitJobDir);    rUploader.uploadFiles(job, jobSubmitDir);// 4）计算切片，生成切片规划文件writeSplits(job, submitJobDir);    maps = writeNewSplits(job, jobSubmitDir);    input.getSplits(job);// 5）向Stag路径写XML配置文件writeConf(conf, submitJobFile);  conf.writeXml(out);// 6）提交Job,返回提交状态status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

Java的Hadoop FileInputFormat切片机制怎么理解