温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Spark的mapWithState解密方法是什么

发布时间:2021-12-16 15:21:58 来源:亿速云 阅读:190 作者:iii 栏目:云计算

这篇文章主要讲解了“Spark的mapWithState解密方法是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Spark的mapWithState解密方法是什么”吧!

updateStateByKey和mapWithState方法在DStream中找不到,需要进行隐式转换,转换为PairDStreamFunctions对象。

Spark的mapWithState解密方法是什么

updateStateByKey是在已有的状态下进行更新操作。Seq[V]中存放历史数据,Option[S]存放新值,可能没有值。使用了默认的Partitioner函数,HashPartitioner。

Spark的mapWithState解密方法是什么Spark的mapWithState解密方法是什么

StateDStream继承DStream,使用MEMORY_ONLY_SER的方式作为存储级别。

Spark的mapWithState解密方法是什么

StateDStream的compute方法,如果parent存在则调用computeUsingPreviousRDD方法,如果不存在调用preStateRDD的mapPartitions方法。

Spark的mapWithState解密方法是什么

computeUsingPreviousRDD方法中,parentRDD和之前的RDD进行cogroup操作,根据Key对Value进行聚合,基于Key对所有的Value进行扫描,当数据量比较少时可以考虑使用cogroup方法,但是当数据量大时,就会影响整个运行,降低性能。

Spark的mapWithState解密方法是什么

mapWithState方法中接收StateSpec类型的参数,StateSpec中封装了更新操作的函数。

Spark的mapWithState解密方法是什么

StateImpl继承State类,记录了其状态信息,定义了获取,更新,删除等操作接口,很像是数据库中的一张表,进行增删改查。

Spark的mapWithState解密方法是什么

StateSpecImpl类中定义了如何初始化状态,设置Partition的个数,设置分区函数Partition。

Spark的mapWithState解密方法是什么

MapWithStateDStreamImpl类的compute方法其实质是调用InternalMapWithStateDStream的getOrCompute方法。

Spark的mapWithState解密方法是什么

InternalMapWithStateDStream是在历史数据的基础上进行更新操作。

Spark的mapWithState解密方法是什么

InternalMapWithStateDStream的compute方法中,实例化了MapWithStateRDD对象。

Spark的mapWithState解密方法是什么

MapWithStateRDD类中,一个Partition对应一个MapWithStateRDDRecord。

Spark的mapWithState解密方法是什么

MapWithStateRDD的compute方法,先获取之前的State信息,和现在数据的迭代器进行操作,,调用MapWithStateRDDRecord的updateRecordWithData的方法,返回MapWithStateRDDRecord为元素的迭代器。

Spark的mapWithState解密方法是什么

newStateMap中保存了整个历史数据。

Spark的mapWithState解密方法是什么

RDD是不可变的,但是RDD中的数据可以变化。

感谢各位的阅读,以上就是“Spark的mapWithState解密方法是什么”的内容了,经过本文的学习后,相信大家对Spark的mapWithState解密方法是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI