本篇内容主要讲解“Hadoop和spark的性能对比”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Hadoop和spark的性能对比”吧!
Hadoop和spark的性能有何区别。
如果说Hadoop是一家大型包工队,我们可以通过它组织人员进行合作,搬砖建造房屋,弊端在于速度较慢。
Spark是另一家包工队,成立时间较晚,但是他们搬砖更为灵活,可以实时交互地盖房子,工作效率比Hadoop快得多。
当Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还允许不同专家如YARN/ MESOS对人员和任务进行调度。
当然,Spark和Hadoop团队进行合作,问题变得更加复杂。作为两个独立的包工队,二者都有着各自的优缺点和特定的业务用例。
因此,我们说Hadoop和spark的性能区别在于:
Spark在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。众所周知,Spark在数量只有十分之一的机器上,对100TB数据进行排序的速度比Hadoop MapReduce快速3倍。此外,Spark在机器学习应用中的速度同样更快,例如Naive Bayes和k-means。
Spark性能之所以比Hadoop更优,原因在于每次运行MapReduce任务时,Spark都不会受到输入输出的限制。事实证明,应用程序的速度要快得多。再有Spark的DAG可以在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的诉求,Hadoop被认为是更高效的系统。
到此,相信大家对“Hadoop和spark的性能对比”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。