这是有关监视数据可视化的系列文章中的第二篇。这篇文章着重于摘要图。
在本系列的第一部分中,我们讨论了时间序列图-显示基础结构指标随时间变化的可视化效果。在本文中,我们将介绍摘要图,这些摘要图是将特定时间段展平以提供基础架构摘要窗口的可视化效果:
对于每种图形类型,我们将说明其工作方式和使用时间。但是首先,我们将快速讨论理解基础结构摘要图所必需的两个概念:跨时间聚合(您可以将其视为“时间变平”或“快照”)和跨空间聚合。
为了提供指标的摘要视图,可视化必须通过将时间维度压缩到视线范围之外,将时间序列展平为单个值。这种跨时间的聚合可能意味着仅显示度量查询返回的最新值,或者更复杂的聚合以在移动时间窗口内返回计算值。
例如,您可能不希望显示度量标准查询的最新报告值,而是希望显示每个主机在过去60分钟内报告的最大值,以解决有问题的峰值:
[
并非所有指标查询都有意义,可以按主机,容器或其他基础结构单元划分。因此,您通常需要跨空间进行一些聚合,以创建可合理反映您的基础结构的度量可视化。这种聚合可以采用多种形式:通过消息队列,数据库表,应用程序或主机本身的某些属性(操作系统,可用性区域,硬件配置文件等)来聚合度量。
跨空间的聚合使您可以对基础架构进行切片和分割,以准确地隔离可观察关键系统的指标。
与上面的示例中列出的主机级别的Redis峰值延迟相比,查看基于Redis构建的每个内部服务的峰值延迟可能更有用。或者,您只能显示基础结构中任何主机报告的最大值:
![Redis延迟图]跨空间聚合:按服务名称对主机进行分组(顶部)或将主机列表压缩为单个值(底部)
时间序列图中的跨空间聚合也很有用。例如,很难理解Web请求的主机级图表,但是当按可用性区域汇总指标时,可以轻松解释相同的数据:
![Redis延迟图]从未聚合的(折线图,顶部)到跨空间的聚合(堆叠的面积图,底部)
标记指标的主要原因是启用跨空间聚合。
单值摘要使用条件格式(例如绿色/黄色/红色背景)显示给定度量查询的当前值,以传达该值是否在预期范围内。单值摘要显示的值不必表示瞬时测量。窗口小部件可以显示报告的最新值,或者显示在整个时间窗口内根据所有查询值计算得出的汇总值。这些可视化为您的基础架构提供了一个狭窄但明确的窗口。
[
什么 | 为什么 | 例 |
---|---|---|
给定系统的工作指标 | 使关键指标立即可见 | 每秒Web服务器请求 |
关键资源指标 | 概览资源状况和健康状况 | 负载均衡器背后的健康主机 |
错误指标 | 快速引起对潜在问题的关注 | 致命数据库异常 |
与以前的值相比,计算的度量标准更改 | 清晰传达关键趋势 | 使用中的主机与一周前相比 |
排行榜是有序列表,可让您按主机,群集或基础结构的任何其他网段的指标值对其进行排名。因为它们很容易解释,所以顶层列表在高级状态面板中特别有用。
与单值摘要相比,顶列表在空间上具有附加的聚合层,因为按组划分了指标查询的值。每个组可以是单个主机或相关主机的集合。
[
什么 | 为什么 | 例 |
---|---|---|
来自不同主机或组的工作或资源指标 | 一目了然地发现异常值,表现不佳或资源过度消费的人 | 每个应用服务器处理的积分 |
自定义指标作为值列表返回 | 以易于阅读的格式传达KPI(例如,用于壁挂式显示器上的状态板) | 正在使用的Datadog代理版本 |
顶列表为您提供了最近度量标准值的摘要,而变化图则将度量标准的当前值与其过去某个时间点的值进行比较。
变更图与其他可视化之间的主要区别在于,变更图采用两个不同的时间范围作为参数:一个用于评估窗口的大小,另一个用于设置回溯窗口。
[
什么 | 为什么 | 例 |
---|---|---|
每天,每周或每月上升和下降的循环指标 | 将指标趋势与定期基准分开 | 数据库写吞吐量,与上周同期相比[ |
高级基础架构指标 | 快速识别大规模趋势 | 主机总数,与昨天同期相比[ |
主机地图是一种独特的方式,使您可以一目了然地观察整个基础架构或其任何部分。但是,如果对基础结构进行切片和切块(按数据中心,按服务名称,按实例类型等),您将看到所选组中的每个主机都是六边形,并按这些主机报告的任何度量标准进行了颜色编码和大小调整。
这种特定的可视化类型是Datadog独有的。这样,它是专门为基础结构监视而设计的,与本文其他地方描述的通用可视化相反。
[
什么 | 为什么 | 例 |
---|---|---|
资源利用率指标 | 一目了然地发现过载的组件 | 每个应用程序主机的负载(按群集分组)[ |
识别资源分配不当(例如,任何实例是否过大或过小) | 每个EC2实例类型的CPU使用率[ | |
错误或其他工作指标 | 快速识别降级的主机 | 每个服务器的HAProxy 5xx错误[ |
相关\指标**** | 在单个图中查看相关性 | 应用服务器的吞吐量与使用的内存[ |
分布图显示了跨基础架构部分的指标值的直方图。图表中的每个条形图代表一个合并值的范围,其高度对应于该范围内报告值的实体数。
分布图与热图密切相关。两者之间的主要区别在于,热图显示了随时间的变化,而分布是时间窗口的摘要。像热图一样,分布可以方便地可视化报告特定度量的大量实体,因此它们经常用于在单个主机或容器级别上绘制度量图形。
[
什么 | 为什么 | 例 |
---|---|---|
大量实体报告的单一指标 | 一目了然地传达总体健康状况 | 每个主机的网络延迟[ |
查看小组成员之间的差异 | 每个主机的正常运行时间[ |
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。