降采样(或在信号处理中,抽取)是降低数据采样率或分辨率的处理过程。例如,假设温度传感器每秒钟都向OpenTSDB系统发送数据。如果用户在一小时内查询数据,他们将获得3,600个数据点,这些数据点可以相当容易地绘制出来。但是现在,如果用户要求整整一周的数据,他们将获得604,800个数据点,并且突然间图形可能变得非常混乱。使用降采样器,单个时间序列在一个时间范围内的多个数据点在一个对齐的时间戳中与数学函数一起聚合成单个值。这样我们可以将数量从604,800减少到168。
降采样器至少需要两个组件:
举例说明:如下时间序列A和B。数据点覆盖70秒的时间范围,每10秒一个值。假设我们希望缩减到30秒,因为用户正在查看更宽时间跨度范围的图。此外,我们使用sum聚合器将这两个序列分组为一个。我们可以指定一个降采样器30s-sum,它将创建30秒的桶并累计每个桶中的所有数据点。这将为我们提供每个序列的三个数据点:
时间序列 | T0 | T0+10s | T0+20s | T0+30s | T0+40s | T0+50s | T0+60s |
---|---|---|---|---|---|---|---|
A | 5 | 5 | 10 | 15 | 20 | 5 | 1 |
A sum降采样 | 5+5+10=20 | 15+20+5=40 | 1 | ||||
B | 10 | 5 | 20 | 15 | 10 | 0 | 5 |
B sum降采样 | 10+5+20=35 | 15+10+0=25 | 5 | ||||
sum聚合结果 | 55 | 65 | 6 |
正如你所看到的,对于每一个时间序列,我们会生成标准化的间隔边界(每30秒),这样我们就必须在时间戳t0,t0+30s和t0+60s合并序列的值。每个间隔或存储桶将包含包含存储桶时间戳(start)的数据点,并且不包括以下存储桶的时间戳(end),即[start, end)半开半闭区间。在这种情况下,第一个桶将从 t0延伸到t0+29.9999s,使用提供的聚合器,将所有值合并为一个新值。例如,对于序列A,我们对t0,t0+10s并t0+20s的值求和得到新的值20在t0。最后,查询使用sum进行分组,以便我们累加两个合成的时间序列。此时,OpenTSDB总是在降采样执行后再执行分组聚合。
注意:
对于早期版本的OpenTSDB,新数据点的实际时间戳将是时间间隔范围中每个数据点的时间戳的平均值。从2.1和更高版本开始,每个点的时间戳与基于当前时间的模和降采样间隔的时间桶的开始对齐。
降采样时间戳基于原始数据点时间戳的剩余部分(差值)除以下采样间隔(以毫秒为单位,即模数)进行归一化。在Java中代码是:timestamp - (timestamp % interval_ms)。例如,给定时间戳1388550980000或1/1/2014 04:36:20 UTC,1小时间隔(相当于3600000毫秒),结果时间戳将舍入为1388548800000。在4至5 UTC之间的所有数据点将在4 AM桶中收尾。如果以1小时的间隔查询一天的数据降采样,则将会收到24个数据点(假设所有24小时都有数据)。
使用“0all-”间隔时,查询的开始时间将成为结果的时间戳。
归一化(标准化)对于常见查询非常有效,例如将一天的数据降采样到1分钟或1小时。但是,如果尝试以奇数间隔(如36分钟)降采样,则由于模数计算的性质,时间戳可能看起来有点奇怪。给定36分钟的时间间隔以及我们上面的示例,时间间隔为2160000毫秒,结果为时间戳1388549520或04:12:00 UTC。所有在04:12与04:48之间的数据点将收尾在一个桶中。
从OpenTSDB 2.3开始,用户可以指定基于日历的降采样而不是快速取模的方法。这对于报告目的更为有用,例如查看与人类可读时间相关的值,例如数月,数周或数天。此外,降采样可以考虑时区,并纳入夏时制时间偏移和时区偏移。
要使用日历边界,请查看正在查询的接口文档。例如,V2版本的 URI接口具有指定要使用的特定时区的参数,例如&timezone=Asia/Kabul,基于日历的降采样可通过将附加c到间隔时间单位中来启用如&m=sum:1dc-sum:my.metric。对于JSON查询,在顶层使用单独的字段timezone以及useCalendar布尔标识。如果未提供时区,则日历将使用UTC时间。
通过日历降采样,第一个时间间隔在指定时区的查询年份捕捉到1月1日的00:00:00。从那里开始计算间隔桶直到查询的结束时间。每个存储桶都标有存储桶开始的时间戳(包含,闭区间),并包括所有的值,直到下一个存储桶开始为止。
降采样通常用于对齐(调整)时间戳,以避免在执行分组时进行插值。由于OpenTSDB不会对时间对齐或值存在时施加约束,因此必须在查询时指定这些约束。使用降采样执行分组聚合时,如果所有序列都缺少预期间隔的值,则不会发出任何数据。例如,如果一个序列的以间隔每分钟从t0到t0+6m写入数据,但由于某种原因源在t0+3m未能写入数据,只有5个值将被序列化时,用户可能希望有6个值。在2.2及更高版本的填充策略中,您现在可以选择任意值在t0+3m发出,用户(或应用程序)将看到的值特定时间戳缺少的值,而不必找出缺少哪个时间戳。只要降采样桶为空,填充策略就会简单地发出预定义的值。
可用的策略包括:
时间序列 | T0 | T0+10s | T0+20s | T0+30s | T0+40s | T0+50s | T0+60s |
---|---|---|---|---|---|---|---|
A | 15 | 5 | |||||
B | 10 | 20 | 15 | 20 | |||
A sum 降采样 | NaN | NaN | NaN | 15 | NaN | 5 | NaN |
B sum 降采样 | 10 | NaN | 20 | 15 | NaN | NaN | 20 |
sum 聚合结果 | 10 | NaN | 20 | 15 | NaN | 5 | 20 |
如果我们在没有填充策略的情况下要求输出,则在t0+20s或t0+40s将会没有值或时间戳被发出。另外,B序列中在t0+30s和t0+50s的值将被线性插值,以填充要与序列A相加的值。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。