小编给大家分享一下HDFS有哪些显著的特点,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
分布式文件系统(Hadoop Distributed File System)是Hadoop核心子项目,为Hadoop提供了一个综合性的文件系统抽象,并且只会实现了多类文件系统的接口。HDFS基于流式数据访问、存储和处理超大文件。
在HDFS中引入了存放元数据信息的服务器:NameNode和实际存放数据的服务器:DataNode。
HDFS有着显著的特点
存储数据较大
运行在HDFS的应用程序的数据处理有较大的需求,从存储GB到存储TB级别的超大文件,在目前的实际应用中,HDFS以及被利用来管理存储PB级别的数据
支持多硬件平台
Hadoop可以运行在廉价、异构的商用硬件集群上,并且可以在HDFS设计时充分考虑数据的可靠性、安全性、高可用性
支持流式数据
HDFS有一个设计思路是“写入一次,多次读取”、数据源生成数据集后,会被复制分发到不同的存储节点,已用于响应数据分析任务的请求。HDFS放宽了可移植操作系统接口的要求,可以以流的形式访问文件系统中的数据
数据的一致性高
因为采用“写入一次,多次读取”的策略,所以支持追加不支持多次修改,降低了数据不一致性的造成可能
有效预防硬件失效
HDFS的设计能够有效预防硬件异常并且具有自动恢复数据的能力
高容错性
HDFS能够自动保存数据的多个副本,并且能够自动将失败的任务重新发配,具有高容错性
所以,HDFS经常被使用于各个场景下,例如:
大数据存储:分布式存储
日志处理:擅长日志分析
ETL:数据可抽取到MYSQL,oracle,Lucene
机器学习
搜索引擎
但是,相对于的,HDFS也有不适应的地方
不适合低延迟的数据访问
HDFS不适合处理那些数据访问要求低延迟的请求,因为HDFS主要是为了高数据的吞吐设计的,会产生稿时间延迟的代价
无法高效的存储大量小文件
HDFS采用主从架构来存储数据,需要用到NameNode来管理文件系统的元数据,以响应请求。为了快速响应请求,元数据存在主节点的内存中,如果小文件数量多达,容易造成内存不足,导致系统错误
以上是“HDFS有哪些显著的特点”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。