MapReduce应该如何应用开发,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
Configuration org.apache.hadoop.conf
不同环境使用不同的配置文件,跟web开发类同
HADOOP_USER_NAME 设置hadoop 用户名
HADOOP_CONF_DIR 配置信息环境变量
辅助类 Configured Tool ToolRunner
用MRUnit 来写单元测试
在本地作业运行器上运行作业
测试驱动程序
使用本地作业运行器
使用一个mini集群来运行它
打包作业
分布式环境打包成JAR 文件
启动作业
作业调试
通过打印语句
计数器 可以衡量问题的严重程度
日志
远程调试
mapper 的数量
reducer 的数量
combiner
中间值的压缩
自定义序列
调整 shuffle
通常是增加更多的作业,而不是增加作业的复杂度
对于更复杂的问题,可考虑使用Pig, hive, Cascading, Crunch 或Spark
JobControl
Apache Oozie 是一个运行工作流的系统,该工作流由相互依赖的作业组成
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。