温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

receiver based Dstream怎么用

发布时间:2021-12-27 10:53:32 来源:亿速云 阅读:145 作者:小新 栏目:大数据

小编给大家分享一下receiver based Dstream怎么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

使用注意事项

1. receiver 会像正常task一样,由driver调度到executor,并占用一个cpu,与正常task不同,receiver是常驻线程

2. receiver个数 KafkaUtils.createStream调用次数决定,调用一次产生一个receiver

3. al topicMap = Map("page_visits" -> 1) map的value对应的数值实际上是消费的线程个数。

 前情:基于reciver kafka java客户端消费者高阶API

4. receiver 默认 200ms 生成一个block,spark.streaming.blockInterval默认值是200ms。最小建议是50ms,小于该值,性能不好,比如task加载比重就比较大了。每秒钟大于50个任务,那么将任务加载分发执行就会成为一种负担。

根据数据量来调整block的生成周期。

5. receiver接收的block会放入blockmananger,每个executor都会有一个blockmanager实例,由于数据的本地性,那么存在recever的executor会被调度执行更多的task,就会导致某些executor比较空闲。

a). 增加executor

b). repartition增加分区

c). 调整数据本地性 spark.locality.wait 假如任务都是3s以内执行结束,就会导致越来越多的任务调度到数据存在的executor上执行,最终导致executor执行的任务失衡。

6. kafka 082 高阶消费者api,有分组的概念。当然就会产生一个问题,消费者组内的线程数,和kafka分区数的对应关系。

7. checkpoint 目的是从driver故障恢复或者恢复upstatebykey等状态

8. wal,预写日志,为了故障恢复,实现了最少一次消费。一是没必要多副本,尤其是基于hdfs的存储。然后为了效率,可以关闭wal。使能wal只需要将spark.streaming.receiver.writeAheadLog.enable配置为true,默认值是false

9 限制消费者最大速率

1. spark.streaming.backpressure.enabled

默认是false,设置为true,就开启了背压机制。

2. spark.streaming.backpressure.initialRate

默认没设置,初始速率。第一次启动的时候每个receiver接受数据的最大值。

3. spark.streaming.receiver.maxRate

默认值没设置。每个接收器将接收数据的最大速率(每秒记录数)。
实际上,每个流每秒最多将消费此数量的记录。 将此配置设置为0或负数将不会对速率进行限制。

10。 spark.streaming.stopGracefullyOnShutdown    

on yarn 模式kill的时候是立即终止程序的,无效。

11. 在产生job的时候会将当前job有效范围的所有block组装成一个blockrdd,一个block对应一个分区。
图解

未加入wal的基于recevier的dstream

receiver based Dstream怎么用

加入wal的Dstream

receiver based Dstream怎么用

存checkpoint和wal的过程

receiver based Dstream怎么用

故障恢复图解

receiver based Dstream怎么用

以上是“receiver based Dstream怎么用”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI