Spark和Hadoop大决战

发布时间：2020-07-05 19:54:39 阅读：588 作者：caosheng03 栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

Spark作为数据处理的核心应用，有着重要的作用和地位，那么spark能不能取代Hadoop而存在呢？

Spark只是分布式计算平台，而hadoop已经是分布式计算、存储、管理的生态系统。

与Spark相对应的是Hadoop MapReduce。Spark是可以取代MapReduce的，从而成为Hadoop系统中不可或缺的一部分。但是为什么MapReduce还在被使用呢？因为有很多现有的应用还依赖于它，它不是一个独立的存在，已经成为其他生态不可替代的部分，比如pig，hive等。

至于Spark相对于Hadoop的优势，有以下几点：

（1）任务调度的开销

传统的MR系统，如Hadoop 是为了运行长达数小时的批量作业而设计的，在某些极端情况下，提交一个任务的延迟非常高。

spark采用了事件驱动的类库 akka来启动任务，可以避免进程或线程启动，以及切换开销。

（2）数据格式和内存布局

由于MR Schema On Read处理方式会引起较大的处理开销。Spark抽象出分布式内存存储结构弹性分布式数据集RDD，进行数据的存储。RDD能支持粗粒度写操作。但对于读取操作，RDD可以精确到每条几率，这使得RDD可以用来作为分布式索引，Spark的特性是能够控制数据在不同节点上的分区，用户可以自定义分区策略，如Hash分区。Spark 和SparkSQL在Spark的基础上实现了列存储和列存储压缩