DataPipeline数据融合重磅功能丨一对多实时分发、批

发布时间：2020-06-07 16:05:54 阅读：293 作者：DataPipeline 栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

距离上个月的用户体验升级帖已经过去一个月了，在这一个月的时间里，DataPipeline的小伙伴都在忙些什么呢？

为能更好地服务用户，DataPipeline最新版本支持：

1. 一个数据源数据同时分发（实时或定时）到多个目的地；
2. 提升Hive的使用场景：

写入Hive目的地时，支持选择任意目标表字段作为分区字段；
可将Hive作为数据源定时分发到多个目的地。

3. 定时同步关系型数据库数据时，可自定义读取策略来满足各个表的同步增量需求。

本篇将首先介绍一下一对多数据分发及批量读取模式2.0的功能，后续功能会陆续发布。

推出背景

推出「一对多数据分发」的背景

在历史版本中，DataPipeline每个任务只允许有一个数据源和目的地，从数据源读取的数据只允许写入到一张目标表。这会导致无法完美地支持客户的两个需求场景：

扩展Hive相关使用场景

历史版本中，DataPipeline支持各类型数据源数据同步到Hive目的地的需求场景。但由于每个客户的Hive使用方式、数据存储方式不同，两个需求场景在历史版本中并没有得到支持。

需求场景一：
动态分区字段。历史版本中，用户只允许选择时间类型字段作为分区字段。在真实的客户场景中除了按照时间做分区策略外，客户希望指定Hive表任意字段作为分区字段。

需求场景二：
客户希望除了以Hive作为目的地，定时写入数据到Hive外，客户还希望使用DataPipeline可以定时分发Hive表数据到各个应用系统，解决业务需求。

新功能解决的问题：

1. 允许用户指定目的地Hive表中任何字段作为分区字段，并支持选择多个分区字段。

2. 新增Hive数据源，可作为数据任务读取对象。

DataPipeline数据融合重磅功能丨一对多实时分发、批

1. 在关系型数据库作为数据源的情况下，允许用户针对每一个表设置WHERE读取条件，并提供lastmax方法。

2. 使用该函数DataPipeline会取该任务下已同步数据中某一个字段的最大值，用户可以使用该值作为WHERE语句读取条件。

3. 用户使用last_max（）函数，在首次执行该语句或对应字段暂无数值时，则会忽略该函数相关的读取条件。

4. 允许用户结合其他数据库提供的方法编辑读取条件：

例：以时间字段作为读取条件，每次只同步一小时前的数据，且只同步未曾读取的数据。
SELECT * FROMtable1 WHEREupdate_time > 'last_max(update_time)' ANDupdate_time<= DATE_SUB(NOW(), INTERVAL 24 HOUR)
相较于之前的一对一设置，新版本上线后用户可以通过批量设置增量识别字段、批量移除、批量修改表名称等，批量地操作一些表，批量地做一些动态修改，减少用户配置成本。例如，现在需要在200张表的名称后面都加一个data_warehouse，不同于以往的逐一添加，现在可以批量添加这些前缀后缀。
DataPipeline每一次版本的迭代都凝聚了团队对企业数据使用需求的深入思索，其它新功能还在路上，很快就会跟大家见面了，希望能够切实帮助大家更敏捷高效地获取数据。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

DataPipeline数据融合重磅功能丨一对多实时分发、批

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签