如何用Spark解决一些经典MapReduce问题

发布时间：2021-12-07 11:26:29 阅读：137 作者：柒染栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

本篇文章给大家分享的是有关如何用Spark解决一些经典MapReduce问题，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。同时spark也让传统的map reduce job开发变得更加简单快捷。本文将简单介绍几个经典hadoop的mr按理用spark实现，来让大家熟悉spark的开发。

最小值

求最小值一直是Hadoop的经典案例，我们用Spark来实现一下，借此感受一下spark中mr的思想和实现方式。话不多说直接上code：

如何用Spark解决一些经典MapReduce问题

预期结果：

max: 1001min: 2

思路和hadoop中的mr类似，设定一个key，value为需要求***与最小值的集合，然后再groupBykey聚合在一起处理。第二个方法就更简单，性能也更好。

平均值问题

求每个key对应的平均值是常见的案例，在spark中处理类似问题常常会用到combineByKey这个函数，详细介绍请google一下用法，下面看代码：

如何用Spark解决一些经典MapReduce问题

我们让每个partiton先求出单个partition内各个key对应的所有整数的和 sum以及个数count，然后返回一个pair(sum, count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.

TopN问题

Top n问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢：

如何用Spark解决一些经典MapReduce问题

思路很简单，把数据groupBykey以后按key形成分组然后取每个分组的2个。预期结果：

如何用Spark解决一些经典MapReduce问题

以上就是如何用Spark解决一些经典MapReduce问题，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

如何用Spark解决一些经典MapReduce问题

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签