DataPipeline：Data Hub—LinkedIn

发布时间：2020-03-10 14:13:24 阅读：212 作者：DataPipeline 栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

作者：Mars Lan, Seyi Adebajo, Shirshanka Das

译者：张雅然

一、扩展元数据

为提高LinkedIn数据团队的工作效率，我们之前开发并开源了WhereHows，一个中央元数据存储库和数据集门户。存储的元数据类型包括技术元数据（例如，位置、模式、分区、所有权）和过程元数据（例如，沿袭、作业执行、生命周期信息）。WhereHows还有一个搜索引擎，以帮助定位感兴趣的数据集。

一旦收集了元数据，就很自然地想要分析元数据以获得价值。一个简单的解决方案是将所有元数据转储到离线系统，如Hadoop，可以执行任意分析。但是，我们很快发现仅仅支持离线分析是不够的。例如访问控制和数据隐私处理，必须在线查询最新的元数据。

元数据通常传达重要的关系（例如，血统，所有权和依赖关系），这些关系能够实现强大的功能，如影响分析，数据汇总，更好的搜索相关性等。将所有这些关系建模为最重要的组件并支持对它们进行有效地分析查询是非常重要的。

5. 多中心化

我们意识到仅仅围绕单个实体（数据集）建模元数据是不够的。整个生态系统的数据，代码和角色实体（数据集，数据科学家，团队，代码，微服务API，指标，AI功能，AI模型，仪表板，笔记本等）都需要集成到元数据地图。

二、一起了解下Data Hub

大约一年前，我们根据这些知识从头开始设计WhereHows。我们意识到LinkedIn越来越需要跨各种数据实体的统一的搜索和发现体验，以及将它们连接在一起的元数据图。因此，我们决定扩大项目范围，构建一个完全通用的元数据搜索和发现工具Data Hub，其雄心勃勃的愿景是：将LinkedIn员工与对他们至关重要的数据联系起来。

我们将单片WhereHows堆栈分成两个不同的堆栈：模块化UI前端和通用元数据架构后端。新架构使我们能够快速扩展元数据收集范围，而不仅仅是数据集和作业。在撰写本文时，Data Hub已经存储并索引数千万条元数据记录，这些记录包含19个不同的实体，包括数据集，指标，作业，图表，AI功能，人员和组。我们还计划在不久的将来在机器学习模型和标签，实验，仪表板，微服务API和代码上，发挥元数据的作用。

三、模块化UI

Data Hub Web应用程序是大多数用户与元数据交互的方式。该应用程序用Ember Framework编写，运行在Play中间层上。为了使开发具有可扩展性，我们充分利用各种现代化的网络技术，包括ES9，ES.Next，TypeScript, Yarn以及 Prettier和 ESLint这样的代码质量工具。展现层，控制层和数据层被模块化为包，以便应用程序中的特定视图由相关包组合构建。

在最高级别，前端提供三种类型的交互：（1）搜索，（2）浏览，（3）查看/编辑元数据。以下是一些实际应用的截图（点开看更清晰哦）

DataPipeline：Data Hub—LinkedIn

Data Hub应用截图

与典型的搜索引擎体验类似，用户可以通过提供关键字列表来搜索一种或多种类型的实体。他们可以通过筛选一系列方面来进一步实现结果。高级用户还可以使用OR，NOT和regex等运算符来执行复杂搜索。
Data Hub中的数据实体可以以树状方式组织和浏览，其中每个实体都允许出现在树中的多个位置。这使用户能够以不同的方式浏览相同的目录，例如，通过物理部署配置或业务功能组织。树中甚至有一个专门的部分，仅显示“经过认证的实体”，这些实体可通过单独的治理过程进行策划。
最终的交互视图/编辑元数据也是最复杂的一个。每个数据实体都有一个可以显示所有相关元数据的“配置文件页面”，例如，数据集配置文件页面可能包含其架构，所有权，合规性，运行状况和沿袭元数据。它还可以显示实体与其他实体之间的关系。对于可编辑的元数据，用户还可以直接通过UI进行更新。

四、通用元数据架构

为了充分实现Data Hub的愿景，我们需要一种能够使用元数据进行扩展的架构。可扩展性挑战有以下四种不同形式：
1. 建模：以开发人员友好的方式为所有类型的元数据和关系建模。
2. 获取：通过API和流，大规模获取大量元数据更改。
3. 服务：服务于收集的原始和派生元数据，以及针对元数据的各种复杂查询。
4. 索引：大规模索引元数据，并在元数据发生更改时自动更新索引。 元数据建模

简而言之，元数据是“ 提供关于其他数据的信息的数据。”在元数据建模方面，带来了两个不同要求：

DataPipeline：Data Hub—LinkedIn

该示例包含三种类型的实体：用户、组和数据集，由图中的蓝色圆圈表示。我们用箭头来表示这些实体之间的三种关系类型，即OwnedBy，HasMember和HasAdmin。换句话说，一个组由一个管理员和多个用户组成，他们可以拥有一个或多个数据集。
与传统的ERD不同，我们将实体和关系的属性分别直接放在圆圈内和关系名称下面，以便将新类型的组件（称为“元数据方面”）附加到实体。不同的团队可以拥有和发展同一实体元数据的不同方面，而不会相互干扰，从而实现分布式元数据建模要求。三种类型的元数据方面：所有权，配置文件和成员资格在上面的示例中呈现为绿色矩形。虚线表示元数据方面与实体的关联。例如，配置文件可以与用户相关联，且所有权可以与数据集等相关联。
您可能已经注意到实体和关系属性与元数据方面存在重叠，例如，User的firstName属性应该与关联的Profile的firstName字段相同。重复的原因将在本文的后半部分进行解释。
以Pegasus为例，我们将每个实体，关系和元数据方面转换为单独的Pegasus架构文件（PDSC）。为简单起见，我们在此仅包含每个类别的一个模型。首先，让我们看一下用户实体的PDSC：
每个实体都需要具有URN形式的全局唯一ID ，可以将其视为一种类型的GUID。User实体具有包括名字，姓氏和LDAP的属性，每个属性都映射到用户记录中的可选字段。
接下来是OwnedBy关系的PDSC模型：

DataPipeline：Data Hub—LinkedIn

每个关系模型自然包含“源”和“目标”字段，这些字段使用其URN指向特定实体实例。该模型可以选择包含其他属性字段，例如本例中的“type”。在这里，我们还引入了一个名为“pairings”的自定义属性，以限制与特定的源和目标URN类型的关系。在这种情况下，OwnedBy关系只能用于将数据集连接到用户。
最后，您将在下面找到Ownership 元数据方面的模型。在此，我们选择将所有权建模为包含type和ldap字段的记录数组。但是，只要它是有效的PDSC记录，对于元数据方面的建模几乎没有限制。这令满足先前所述的“元数据也是数据”的要求成为可能。

DataPipeline：Data Hub—LinkedIn

在创建所有模型之后，下个问题是如何将它们连接在一起以形成所提议的ERD。我们将把这个讨论推迟到本文后面的元数据索引部分。
元数据获取
Data Hub提供两种获取元数据的形式：直接API调用或Kafka流。前者用于需要读写一致性的元数据更改，后者更适用于面向事实的更新。

Data Hub的API基于Rest.li，这是一种可扩展，强类型的RESTful服务架构，广泛用于LinkedIn。由于Rest.li使用Pegasus作为其接口定义，因此可以逐字使用上一节中定义的所有元数据模型。从API到存储需要多级模型转换的日子已经成为历史 - API和模型将始终保持同步。

DataPipeline：Data Hub—LinkedIn

一旦摄取存储了元数据，就必须有效地提供原始元数据和派生元数据。Data Hub旨在支持四种常见的大量元数据查询：

DataPipeline：Data Hub—LinkedIn

DAO抽象的另一个主要好处是标准化的变更数据捕获（CDC）。无论底层数据存储系统的类型如何，通过键值DAO的任何更新操作都将自动发出元数据审计事件（MAE）。每个MAE包含相应实体的URN，以及特定元数据方面的前后图像。这支持lambda架构，其中可以批量或流处理MAE。与MCE类似，MAE的模式也是由元数据模型自动生成的。
元数据索引
最后一个缺失的部分是元数据索引管道。该系统将元数据模型连接在一起，并在图形数据库和搜索引擎中创建相应索引，以促进有效查询。这些业务逻辑以索引构建器和图形构建器的形式捕获，并作为处理MAE的Samza作业的一部分执行。每个构建器都在作业中注册了它们对特定元数据方面的兴趣，并将使用相应的MAE进行调用。然后，构建器会返回到一个幂等更新列表，这些更新将应用于搜索索引或graph DB。
元数据索引管道也是高度可扩展的，因为它可以基于每个MAE的实体URN进行分区，以支持每个实体的有序处理。

DataPipeline：Data Hub—LinkedIn

五、结论和期待

在这篇文章中，我们介绍了Data Hub，这是我们在LinkedIn元数据之旅中的最新进展。该项目包括模块化UI前端和通用元数据架构后端。

文章来源：Linkedin Engineering , 《Data Hub: A Generalized Metadata Search & Discovery Tool》作者 / Mars Lan, Seyi Adebajo, Shirshanka Das

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

DataPipeline：Data Hub—LinkedIn

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签