温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

kafka的多分区watermark机制是怎么样的

发布时间:2021-12-15 09:31:06 来源:亿速云 阅读:261 作者:柒染 栏目:大数据

今天就跟大家聊聊有关kafka的多分区watermark机制是怎么样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

watermark依赖的背景,可以是:

  1. 事件时间,必须要在事件时间这个概念之上理解watermark。

  2. watermark更形象的理解可以理解为时间序列心跳吧,驱动流进行,而不是延迟时间,比如6s,这个不是watermark。

watermark就像心跳一样,驱动着流程序基于事件时间进行处理,watermark之所以说类似于序列心跳,是因为它携带了时间戳 t。Watermark(t)意味着算子当前的事件时间已经到达了时间 t,任何时间戳小于t的事件都不会再发过来,也即是时间戳小于t的事件就应该丢弃了。

kafka的多分区watermark机制是怎么样的

上面的可以说是针对单并行度的流,只有一个流水线,怎么着也玩不出彩来。watermark会在每个并行度的source处或者其他算子内部添加,然后继续向前流动,假如流程序不存在shuffle那就没啥好说的了,每个单独的实例单独进行,这个要想理解要结合前面的一篇文章:

结合Spark讲一下Flink的runtime

存在shuffle的话,就是一个算子会存在多个输入的话,当前事件时间就采用最小的事件时间。

kafka的多分区watermark机制是怎么样的

kafkasource

kafka作为数据源的时候,假如消费的是多个topic或者多分区,那么由于分区消费是并行进行的,会打破数据在每个分区的数据性,这个是客户端性质决定的,除非你是一个消费者对应于一个分区。这种情况下,可以使用

Kafka-partition-aware watermark生成器,该生成器会在每个kafka消费者内部,为每个分区生成watermark,最后每个分区的watermark会想Stream shuffle watermark的合并机制一样合并。

kafka的多分区watermark机制是怎么样的

代码示例

FlinkKafkaConsumer09<MyType> kafkaSource = new FlinkKafkaConsumer09<>("myTopic", schema, props);
kafkaSource.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<MyType>() {

   @Override
   public long extractAscendingTimestamp(MyType element) {
       return element.eventTimestamp();
   }
});

DataStream<MyType> stream = env.addSource(kafkaSource);

看完上述内容,你们对kafka的多分区watermark机制是怎么样的有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI