Data Cloud 中的批处理数据转换入门
学习目标
完成本单元后,您将能够:
- 描述批处理数据转换以及何时使用它们。
- 识别不同类型的数据转换节点。
- 描述如何创建批处理数据转换。
批处理数据转换简介
在 Data Cloud 中,数据通过数据流进入并留在 Data Lake 对象 (DLO)中。DLO 是 Data Cloud 中存储数据的容器。数据转换允许您访问一个或多个 DLO 中的数据,并对其进行转换,以创建自己的数据集。
何时使用批处理数据转换
与持续执行的流数据转换相比,批处理数据转换按计划定期执行。批处理数据转换提供比基于 SQL 语句的流数据转换更多的功能。批处理数据转换提供了一个功能丰富的可视编辑器。您可以使用该编辑器将多个 DLO 中的数据合并,使用函数创建计算字段,并将数据输出到多个 DLO 中。
如需进行复杂的数据转换或需要按计划更新数据,请使用批处理数据转换。在批处理数据转换中,您可以进行数据的联接、聚合和附加。您还可以使用公式和筛选器。
批处理数据转换的工作方式?
使用可视编辑器,您可以通过拖放节点的方式来创建所需的数据。一个节点代表过程中的一个步骤。节点代表源数据和目标数据,以及您基于该数据执行的各种操作。
创建批处理数据转换时,您可以使用不同的节点类型来提取所需的准确数据。下面列出了您可以选择的不同节点类型及其功能。
节点类型 |
它的作用 |
---|---|
聚合 |
使用以下函数将数据汇总至更高的粒度:Average、Count、Maximum、Minimum、Stddevp、Stddev、Sum、Unique、Varp 和 Var。 |
附加 |
将多个数据集的行合并。 |
筛选器 |
删除目标数据中不需要的行。 |
输入 |
包含 DLO 中的源数据。 |
联接 |
通过查找或联接来连接两个输入节点。每个输入节点必须有一个关键字段。例如,客户数据输入节点和销售票证节点都有一个客户 ID 字段。 |
输出 |
包含 DLO 中的已转换数据。 |
转换 |
使用函数来操作数据。使用此节点,可以计算值、修改字符串值、格式化日期、编辑数据属性、丢弃列等。 |
更新 |
在密钥对匹配时,使用来自其他数据源的数据交换列值。 |
创建批处理数据转换
现在您已经知道了什么是批处理数据转换,让我们来了解一下它在实际世界中的工作原理。假设您在一家销售比赛门票的体育赛事公司工作。该公司还销售每场比赛的相关商品。您希望根据客户购票和购买商品的记录创建一个 VIP 客户名单。
在开始构建转换之前,您首先需要创建一个将包含已转换数据的 DLO。在此转换中,目标 DLO 被称为 VIP Customers(VIP 客户),并且其分类为“简档”,因为数据为客户名单。此 DLO 的名称是 VIP Customers,但在转换中我们给它起了一个更具描述性的名称 Update VIP Customers DLO(更新 VIP 客户 DLO)。
- 现在您已经准备好构建数据转换了。选择批处理数据转换后,它将打开一个空白的画布。首先添加第一个数据源:客户 DLO(简档)。
- 现在您已经获得了客户数据,添加两个联接节点:一个连接到商品购买 DLO,另一个连接到门票购买 DLO。这些 DLO 都包含参与数据,它们通过客户 ID 相关联。您最终会得到一个非规范化的数据集,其中包含客户及其购买门票和商品的相关数据。
- 添加一个转换节点来识别 VIP 客户。该节点执行多项操作:通过将门票销售额和商品金额相加来计算客户的有效期值;丢弃不需要的列,计算平均客户有效期值,并确定客户是否为 VIP。
- 添加一个筛选器节点来提取 VIP 客户。
- 添加一个转换节点来删除最终数据集中不需要的列。
- 添加一个输出节点来保存转换后的数据。该输出节点是您在此过程开始时创建的目标 DLO。
- 保存并运行转换。
预览结果
转换成功完成后,转至数据资源管理器以打开 VIP 客户 DLO 并检查数据。