这篇文章主要讲解了“done文件的数据监控问题有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“done文件的数据监控问题有哪些”吧!
除了像Alibaba
的 Dataworks 外,很难有另外的公司能够把数据调度,数据监控,数据血缘,元数据管理等作为一体化的平台了,包括我司在内的一些厂,往往把这些建设独立开来,由不同的团队负责,其中数据平台调度功能是绝大多数公司都有的基础平台,但是调度的功能程度就各不同了,下面的问题当作抛砖引玉,指出在生产环境中常遇到的问题,如果后续有产出,后面尽量开源一些代码出来,贴到本博客最后面。
监控从大的层面来说有两种,一种是监控用来拦截的,即有依赖的,一种只是用来报警和分析的。
由于依赖接入源较多,以下问题常有发生:
一般处理过程:花费时间30m+ 处理-延时问题→ 去易创上找依赖图,确认是哪个上游产出表没有产出->复制表名->去数据地图里面找负责人->一般会拉群跟进-->等处理完-->同步或者不同步/关注方→同步产出好了
处理过程: 需要对最终的产出标签的分布等进行质量监控,暂时没有->如果发现以后->复制表名->去数据地图里面找负责人->一般会拉群跟进-->等处理完-->同步或者不同步/关注方→回溯数据->通知使用方数据问题
花费时间60m +数据质量问题 (条数,时间戳)→ 一般只有等标签使用方发现才能意识到->问题复现->复制表名->去数据地图里面找负责人->一般会拉群跟进-->等处理完→同步或者不同步/关注方→同步产出好了
有一些例行的,必须在每天xx点产出的数据,如果没有生成好,就要人为去挨个找上游负责人去找问题,与1.1.3中的问题类似,都是要手动找上游。
基于以上问题,我们发现这些问题,都是监控不完善,完善的监控应该是怎么样的呢?
在已知问题内,只要给表或者数据的标签分布加了监控,那么当出现问题时候,可以自动通知到数据使用方,数据发布方,当问题抛出来给某人以后,他可以选择,将此次报警置为处理中,后续在xx时间内处理好,如果处理不好继续报警,但是报警范围可能更大,比如给负责人经理电话,邮件,短信,拉群艾特等。这样有另外一个好处是数据的sla在一定程度上保证了,可以过后来查问题,或者在未来的“某些特殊场合”使用到。
需求如上,那么设计
监控独立于调度系统,与调度系统唯一的交互是done文件,调度在done文件产出后才继续执行。
1.2.0 为什么基于done文件呢?
任务依赖,对于任务依赖来说,为了对数据源的质量检测,就要对每个任务进行配置任务检测依赖,会有两个问题,其一是任务检测脚本会更分散,其二,检测逻辑很多是类似的,也会造成脚本冗余
表依赖,检测位置是表的分区,那么当数据质量检测通过后,生成一个表的分区,最终就是类似 dt=xxxx/rule=check_t1_count.done 类似这样 通过add partition 来添加
文件依赖,跟表依赖类似之处就是生成一个done文件,区别之处在于可以直接通过服务来调用生成done,较方便所以选文件依赖
1.2.1 done文件由一个唯一的表名+任务id.done组成
1.2.2 单点报警 + 多层处理报警,如果A表怎么样,B表怎么样,就报警给谁,具体有产出延时,失败报警
感谢各位的阅读,以上就是“done文件的数据监控问题有哪些”的内容了,经过本文的学习后,相信大家对done文件的数据监控问题有哪些这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。