spark中的RDD是什么

发布时间：2021-08-20 09:17:08 来源：亿速云阅读：123 作者：chen 栏目：编程语言

这篇文章主要讲解了“spark中的RDD是什么”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“spark中的RDD是什么”吧！

RDD是什么
Spark是围绕弹性分布式数据集（RDD）的概念展开的，RDD是一种容错的可分布式操作的数据集合。有两中方式可以创建RDD：一种是将驱动程序中的已有集合平行化；另外一种是引用外部存储系统的数据集，例如共享文件系统，HDFS, HBase, 或者其他类似Hadoop的数据源。
RDD的特点之一是分布式存储，它的好处就是数据存储在不同的节点上，当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候，既可以存储在内存中，也可以存储在磁盘上，也可以两者结合使用。RDD还有个特点就是延迟计算，当是transformation算子的时候，并不执行操作，直到遇到action算子的时候才开始执行计算。

感谢各位的阅读，以上就是“spark中的RDD是什么”的内容了，经过本文的学习后，相信大家对spark中的RDD是什么这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是亿速云，小编将为大家推送更多相关知识点的文章，欢迎关注！

向AI问一下细节

spark中的RDD是什么

猜你喜欢

最新资讯

相关推荐

相关标签