Data 360 中的批处理数据转换入门
学习目标
完成本单元后,您将能够:
- 描述批处理数据转换以及何时使用它们。
- 识别不同类型的数据转换节点。
- 描述如何创建批处理数据转换。
批处理数据转换简介
在 Data 360 中,数据通过数据流进入并留在 Data Lake 对象 (DLO)中。DLO 是 Data 360 中存储数据的容器。数据转换允许您访问一个或多个 DLO 中的数据,并对其进行转换,以创建自己的数据集。数据转换也可用于转换已映射到数据模型对象 (DMO) 的数据。DMO 是 Salesforce 中数据实体及其关系的结构化表示。
何时使用批处理数据转换
与持续执行的流数据转换相比,批处理数据转换按计划定期执行。批处理数据转换也提供比基于 SQL 语句的流数据转换更多的功能。批处理数据转换包含功能丰富的可视编辑器。您可以使用该编辑器将多个 DLO 中的数据合并,使用函数创建计算字段,并将数据输出到多个 DLO 中。
如需进行复杂的数据转换或需要按计划更新数据,请使用批处理数据转换。在批处理数据转换中,您可以进行数据的联接、聚合和附加。您还可以使用公式和筛选器。
以下是批处理数据转换可能派上用场的一些场景:
-
计算仪表板的度量:将原始的导入数据转换为可用的 KPI,例如聚合以及胜率或客户生命周期价值等计算公式。
-
标准化值:将 "Salesforce"、"salesforce.com" 或 "SFDC" 等不一致的导入值合并为一个统一的值。
-
使用其他数据源进行丰富:整合来自多个数据源(如 CRM、工资单、使用情况日志和客户记录)的数据,用于 Data 360 服务,例如身份解析和已计算见解。
批处理数据转换的工作方式?
使用可视编辑器,您可以通过拖放节点的方式来创建所需的数据。一个节点代表过程中的一个步骤。节点代表源数据和目标数据,以及您基于该数据执行的各种操作。
创建批处理数据转换时,您可以使用不同的节点类型来生成所需的准确数据。下面列出了您可以选择的不同节点类型及其功能。
节点类型 |
作用 |
|---|---|
聚合 |
使用以下函数将数据汇总至更高的粒度:Average、Count、Maximum、Minimum、Stddevp、Stddev、Sum、Unique、Varp 和 Var。 |
AI 功能 |
使用 Einstein Studio 中的 AI 模型进行预测。 |
附加 |
将多个数据集的行合并。 |
筛选器 |
删除目标数据中不需要的行。 |
输入 |
包含 DLO 或 DMO 中的源数据。 |
联接 |
通过查找或联接来连接两个输入分支。每个输入分支必须有一个关键字段。例如,客户数据输入节点和销售票证节点都有一个客户 ID 字段。 |
输出 |
包含 DLO 或 DMO 中的已转换数据。 |
转换 |
使用函数来操作数据。使用此节点,可以计算值、修改字符串值、格式化日期、分桶处理值、丢弃列、处理 JSON 值等。 |
更新 |
在密钥对匹配时,使用来自其他数据源的数据交换列值。 |
实践挑战:创建批处理数据转换
步骤 1:创建 Playground
要完成此模块,您需要包含 Data 360 和示例数据的特殊限时自定义 Playground。
- 单击 Create Playground(创建 Playground)。
- 您的新组织会自动关联到您的 Trailhead 账户!
- 记住组织的到期日期,并在此日期之前完成这个徽章。
步骤 2:创建数据流
在导入客户和业务机会数据之前,您需要在 Data 360 中将其配置为数据源。
- 在 Data Cloud 中,转到 Data Streams(数据流)选项卡,然后单击 New(新建)。
- 在 Connected Sources(已连接的源)下,单击 Salesforce CRM,然后单击 Next(下一步)。
- 注意,Salesforce 试用组织已预选。在 View Bundles(查看数据包)中,选择 Sales data bundle(销售数据捆绑包),然后单击 Next(下一步)。捆绑包具有您创建批处理数据转换所需的所有数据流。
- 保持选中所有标准字段,然后单击 Next(下一步)。
- 在下一屏幕上,单击 Deploy(部署)。如果出现错误或数据流创建时间过长,请取消该操作并重试。
步骤 3:创建批处理数据转换
现在,我们将对数据进行合并和筛选,以创建新的 DLO,显示按行业划分的总大额销售额
- 使用数据湖对象创建新的批处理数据转换。
- 单击 Data Transforms tab(数据转换选项卡)。
- 单击 New Transform(新建转换)。
- 选择 Batch Data Transforms(批处理数据转换),然后选择 Next(下一步)。
- 选择 Data Lake Objects(数据湖对象),然后选择 Next(下一步)。转换生成器随即出现。
- 单击 Data Transforms tab(数据转换选项卡)。
- 添加业务机会对象作为输入数据。
- 单击 Add Input Data(添加输入数据)。
- 当 Add Input Data(添加输入数据)表出现时,请选择 Opportunity_Home。
- 单击 Add Input Data(添加输入数据)。
- 取消选中 Name(名称)旁边的复选框。选择以下字段,然后单击 Next(下一步):
- KQ_Id
- KQ_AccountId
- KQ_OwnerId
- 客户
- 所有人
- Amount(金额)
- 名称
- LeadSource
- KQ_Id
- Opportunity_Home 现作为节点显示在转换生成器中。
- 在 Opportunity(业务机会)节点中添加名为“Filter > 30,000(筛选器 > 30,000)”的筛选器。
- 选择 Opportunity(业务机会)节点旁边的加号。
- 从选项列表中,选择 Filter(筛选器)。
- 选择 Filter 0(筛选器 0)标题旁边的铅笔图标。
- 重命名节点
Filter >30,000(筛选器 >30,000)。
- 单击 Apply(应用)。
- 选择 Opportunity(业务机会)节点旁边的加号。
- 将筛选器配置为仅显示超过 30,000 美元的交易。
- 在数据预览表中,单击筛选器下方的矩形加号。
- 在出现的模式中选择 Amount(金额)。
- “运算符”选择大于。
- 对于数值,输入
30000。请勿包含标点符号或货币。
- 单击 Done(完成),然后单击 Apply(应用)。
- Filter > 30,000(筛选器 > 30,000)现作为节点显示在转换生成器中。
- 在数据预览表中,单击筛选器下方的矩形加号。
- 将 Account(客户)对象联接到 Filter > 30,000(筛选器 > 30,000)节点。
- 单击 Filter > 30,000(筛选器 > 30,000)节点上的加号。
- 从选项列表中,选择 Join(联接)。
- 在 Select Input Data to Join(选择要联接的输入数据)表中,选择 Account_Home。
- 单击 Filter > 30,000(筛选器 > 30,000)节点上的加号。
- 取消选中 Name(名称)旁边的复选框。选择以下字段,然后单击 Next(下一步)。
- KQ_Id
- Id
- 名称
- 行业
- KQ_Id
- 使用 Join(联接)节点,将客户和业务机会数据进行合并。
- 在 Account_Home 节点中,选择 Inner Join(内部联接)。
- 在 Join Keys(联接键)下,单击 Filter > 30,000(筛选器 > 30,000)和 Account_Home 下的矩形。
- 在 Select Join Keys(选择联接键)模式中,对于 Filter > 30,000(筛选器 > 30,000),选择 Account(客户)。
- 对于 Account_Home,选择 ID。
- 单击 Add(添加)。
- 将 Join(联接)节点重命名为
Get Accounts Info(获取客户信息)
- 单击 Apply(应用)。
- 在 Account_Home 节点中,选择 Inner Join(内部联接)。
- 使用 Aggregate(聚合)节点,将相同行业的大额交易金额进行合并。
- 单击 Get Accounts Info(获取客户信息)节点上的加号。
- 选择 Aggregate(聚合)。
- 在数据预览表中,单击 Aggregates(聚合)下方的加号。
- 选择 Sum(求和),然后选择 Amount(金额)。
- 单击完成。
- 在数据预览表中,单击 Group Rows(对行进行分组)下方的加号。
- 在模式中选择 Industry(行业),然后单击 Apply(应用)。
- 将 Aggregate(聚合)节点重命名为
Total Sales by Industry(按行业划分的总销售额)。
- 单击 Get Accounts Info(获取客户信息)节点上的加号。
- 创建新的 DLO,使用此批处理数据转换跟踪按行业划分的大额销售额。
- 单击 Total Sales by Industry(按行业划分的总销售额)节点上的加号。
- 从选项列表中,选择 Output(输出)。
- 保持选择 Create New(新建)和 Replace(替换)模式。
- 在 Object Name(对象名称)下,输入
Large Sales by Industry(按行业划分的大额销售额)
- 在 Object Category(对象类别)下,选择 Other(其他)。
- 在 Primary Key(主键)下,选择 Account_Home.Industry__c。
- 单击 Apply(应用)。
- 将 Output(输出)节点重命名为
Large Sales by Industry(按行业划分的大额销售额)。
- 在数据预览表中,您现在可以查看哪些行业推动您的最大交易。
- 单击 Total Sales by Industry(按行业划分的总销售额)节点上的加号。
- 在转换生成器中,单击 Save(保存)。
- 将您的转换命名为
Large Sales by Industry(按行业划分的大额销售额),然后单击 Save(保存)。
- 运行转换。
- 单击 Back to Data Transforms(返回数据转换)。
- 在表中,查找您刚创建的名为 Large Sales by Industry(按行业划分的大额销售额)的转换。
- 单击该行末尾的向下箭头,选择 Run Now(立即运行)。
- 在出现的模式中单击 Run(运行)。
- 等待转换运行完成。这将需要几分钟。
- 单击 Back to Data Transforms(返回数据转换)。

预览结果
转换成功完成后,转至数据资源管理器,以打开按行业划分的大额销售额 DLO 并检查数据。
查看挑战
现在,您需要检查您的工作。确保您已按照上述所有步骤操作,然后单击 Check Challenge to Earn 500 Points(检查任务,赚取 500 积分),以便进入下一单元。
