温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Hadoop开发中常用工具有哪些

发布时间:2021-12-06 09:42:28 来源:亿速云 阅读:174 作者:小新 栏目:开发技术


这篇文章主要为大家展示了“Hadoop开发中常用工具有哪些”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Hadoop开发中常用工具有哪些”这篇文章吧。

Hadoop概念

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更

容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用

来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX

的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。下面我们开始介绍Hadoop开发中常用的工具InputFormat和OutputFormat。

InputFormat和OutputFormat

Hadoop中的MapReduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个MapReduce程序都离不开他们。

Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置

(偏移量,LongWritable类型),value是每一行的内容,Text类型。KeyValueTextInputFormat同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,***部分为key,剩下的部分为

value;如果没有分隔符,整行作为key,value为空SequenceFileInputFormat用于读取sequencefile。sequencefile是Hadoop用于存储数据自定义格式的binary文件。它有两个子类:

SequenceFileAsBinaryInputFormat,将key和value以BytesWritable的类型读出;SequenceFileAsTextInputFormat,将key和value以Text的类型读出。SequenceFileInputFilter根据filter从

sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种Filter,RegexFilter取key值满足指定的正则表达式的记录;PercentFilter通过指定参数f,取记录行数%

f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。NLineInputFormat0.18.x新加入,可以将文件以行为单位进行split,比如文件的每一行对应一个map。得到的key是每一行

的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。CompositeInputFormat,用于多个数据源的join。TextOutputFormat,输出到纯文本文件,格式为key+""+value。

NullOutputFormat,hadoop中的/dev/null,将输出送进黑洞。

SequenceFileOutputFormat,输出到sequencefile格式文件。MultipleSequenceFileOutputFormat,MultipleTextOutputFormat,根据key将记录输出到不同的文件。DBInputFormat和

DBOutputFormat,从DB读取,输出到DB,预计将在0.19版本加入。

以上是“Hadoop开发中常用工具有哪些”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI