Hadoop入门基础知识有哪些

发布时间：2021-12-09 14:48:49 阅读：177 作者：iii 栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

本篇内容介绍了“Hadoop入门基础知识有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

　　1、Hadoop概述

　　Hadoop 是 Apache 旗下的一个用 Java 语言实现开源软件框架，它还是一个开发和运行处理大规模数据的软件平台。Hadoop允许使用简单的编程模型，在大量计算机集群上，对大型数据集进行分布式处理。

　　狭义上说，Hadoop 指 Apache 这款开源框架，它的核心组件有：HDFS(分布式文件系统)：解决海量数据存储 ;YARN(作业调度和集群资源管理的框架)：解决资源任务调度;MAPREDUCE(分布式运算编程框架)：解决海量数据计算。

　　广义上来说，Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。当下的 Hadoop 已经成长为一个庞大的体系，随着生态系统的成长，新出现的项目越来越多，其中不乏一些非 Apache 主管的项目，这些项目对 HADOOP 是很好的补充或者更高层的抽象。比如，HDFS：分布式文件系统;MAPREDUCE：分布式运算程序开发框架;HIVE：基于 HADOOP 的分布式数据仓库，提供基于 SQL 的查询数据操作;HBASE：基于Hadoop的分布式海量数据库;ZOOKEEPER：分布式协调服务基础组件;Mahout：基于 mapreduce/spark/flink 等分布式运算框架的机器学习算法库;OOZIE：工作流调度框架;Sqoop：数据导入导出工具;FLUME：日志数据采集框架;IMPALA：基于 hive 的实时 sql 查询分析。

　　2、Hadoop的发展历程

　　Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的。最早起源于 Nutch，它是 Lucene 的子项目。Nutch 的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题：如何解决数十亿网页的存储和索引问题。

　　2003 年 Google 发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构，该架构称为：谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。

　　2004 年 Google 发表论文向全世界介绍了谷歌版的MapReduce 系统。同时期，Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE，并从Nutch 中剥离成为独立项目 HADOOP，到 2008 年 1 月，HADOOP 成为 Apache 顶级项目，迎来了它的快速发展期。

　　2006 年 Google 发表了论文是关于 BigTable 的，这促使了后来的 Hbase的发展。因此，Hadoop 及其生态圈的发展离不开 Google 的贡献。

　　3、Hadoop的特性

　　(1)扩容能力：Hadoop 是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计的节点中。

　　(2)成本低：Hadoop 通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。

　　(3)高效率：通过并发数据，Hadoop 可以在节点之间动态并行的移动数据，使得速度非常快。

　　(4)可靠性：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务。所以 Hadoop 的按位存储和处理数据的能力值得人们信赖。

　　4、Hadoop的应用

　　Hadoop 最受青睐的行业是互联网领域，可以说互联网公司是 hadoop 的主要使用力量。国外来说，Yahoo、Facebook、IBM 等公司都大量使用 hadoop 集群来支撑业务。比如：Yahoo 的 Hadoop 应用在支持广告系统、用户行为分析、支持 Web 搜索等。 Facebook 主要使用 Hadoop 存储内部日志与多维数据，并以此作为报告、分析和机器学习的数据源。

　　国内来说，BAT 领头的互联网公司是当仁不让的 Hadoop 使用者、维护者。比如 Ali 云梯(14 年国内最大 Hadoop 集群)、百度的日志分析平台、推荐引擎系统等。国内其他非互联网领域也有不少 hadoop 的应用，比如：金融行业的个人征信分析，证券行业的投资模型分析，还有交通行业的车辆、路况监控分析和电信行业的用户上网行为分析。

“Hadoop入门基础知识有哪些”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站，小编将为大家输出更多高质量的实用文章！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

Hadoop入门基础知识有哪些

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签