本篇文章给大家分享的是有关如何进行基于Flink + Kafka 的实时数仓建设实践,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
一、背景介绍
高吞吐,低延迟:每秒几十万 QPS 且毫秒级延迟;
高并发:支持数千客户端同时读写;
容错性,可高性:支持数据备份,允许节点丢失;
可扩展性:支持热扩展,不会影响当前线上业务。
高吞吐,低延迟,高性能;
高度灵活的流式窗口;
状态计算的 Exactly-once 语义;
轻量级的容错机制;
支持 EventTime 及乱序事件;
流批统一引擎。
二、Flink+Kafka 平台化设计
集群 catalog 化;
Topic 流表化;
Message Schema 化。
三、Kafka 在实时数仓中的应用
虽然进行了集群的扩展,但是任务量也在增加,Kafka 集群压力仍然不断上升;
集群压力上升有时候出现 I/O 相关问题,消费任务之间容易相互影响;
用户消费不同的 Topic 过程没有中间数据的落地,容易造成重复消费;
任务迁移 Kafka 困难。
如何感知 Kafka 集群状态?
如何快速分析 Job 消费异常?
集群概况的监控:可以看到不同集群对应的 Topic 数量以及运行任务数量,以及每个 Topic 消费任务数据量、数据流入量、流入总量和平均每条数据大小;
指标监控:可以看到 Flink 任务以及对应的 Topic、GroupID、所属集群、启动时间、输入带宽、InTPS、OutTPS、消费延迟以及 Lag 情况。
四、问题&改进
多 Sink 下 Kafka Source 重复消费问题;
同交换机流量激增消费计算延迟问题。
五、Q & A
以上就是如何进行基于Flink + Kafka 的实时数仓建设实践,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。