Skip to main content
From 16:00 UTC on January 17, 2026, to 20:00 UTC on January 17, 2026, we will perform planned maintenance on the Trailhead, myTrailhead, and Trailblazer Community sites. During the maintenance, these sites will be unavailable, and users won't be able to access them. Please plan your activities around this required maintenance.

准备数据

学习目标

完成本单元后,您将能够:

  • 解释如何识别和解决数据挑战。
  • 为您的项目定义数据要求。

Trailcast

如果您想收听本模块的录音,请使用以下播放器。听完这段录音后,记得返回每个单元,查看资源,然后完成相关评估。

数据准备就绪的重要性

您的组织需要为启动 AI 项目做好数据准备,这意味着项目的数据需要是准确的、可用的、可访问的和安全管理的。

在许多组织中,数据质量是实施 AI 项目的巨大障碍, 而且理由很充分!数据是 AI 算法的基础,让算法能够学习、适应并做出更好的决策。高质量的数据可以提高 AI 系统的准确性、效率、可靠性和公平性。

在实施 AI 项目之前,解决数据质量问题至关重要。但是,不要让完美数据的想法阻碍了项目。许多项目在数据准备方面陷入困境,因为团队试图实现完美。相反,应该与您的团队一起确定数据准备的合理目标。您可以通过构建阶段来识别和解决影响 AI 输出的任意数据差距。

本单元概述了如何评估数据质量以及为 AI 项目准备数据。

Note

使用 Worksheet: Predictive AI Data Prep Checklist(工作表:预测性 AI 数据准备检查列表)或 Worksheet: Generative AI Data Prep Checklist(工作表:生成式 AI 数据准备检查列表)来为 AI 项目规划数据策略。

创建数据清单

Becca 知道获得项目完整数据视图的最佳方法是创建数据清单。数据清单可以帮助您管理各种数据资产并识别潜在问题。

按照以下步骤创建您的数据清单。

  1. 确定项目中需要的数据。
  2. 确定数据的存储位置。
  3. 回答一些关于数据的问题。
    • 数据类型是结构化的、非结构化的还是半结构化的?(可以在 AI 的数据基础知识中了解更多关于数据分类的信息。)
    • 数据多久刷新一次?
    • 数据是实时更新、每小时更新、每天更新、每月更新还是静态更新?
    • 如何访问数据?
    • 是否为数据实施了治理标准?
    • 在您的项目中,哪些数据方面的考虑可能会带来挑战?

Coral Cloud 的数据清单

让我们继续 Becca 的 AI 项目,为 Coral Cloud 度假村实现登记过程自动化。作为复习,这是 Becca 的实施计划,关键数据点以粗体显示。

  1. 根据 Data 360 中的最新预订数据,使用流创建 Guest Event(客户活动)记录。
  2. 教 Agentforce 如何通过对话语言启动流。例如,当客人 Sofia Rodriguez 抵达要入住时,工作人员可以简单地让 Einstein“为 Sofia Rodriguez 办理入住登记”,Einstein 会完成剩下的事情!
  3. 使用提示生成器生成个性化的欢迎电子邮件,其中提供客人可能感兴趣的游览项目建议并发送。

Becca 仔细查看她的计划,以找出实施解决方案所需的数据。

  • 在第 1 步中,她需要预订数据。Coral Cloud 使用一个名为 Reserv-o-matic 的外部平台来存储预订数据,因此她用 Data 360 将这些数据导入 Salesforce。
  • 在第 2 步中,她需要能够根据客户名检索预订数据。客户数据在 Salesforce 中。
  • 在第 3 步中,她需要客人之前购买过的游览项目数据。客户购买历史记录也在 Salesforce 中。

在跟踪所需的数据源之后,Becca 创建了一个数据清单。

数据名称

数据源

数据类型

更新节奏

注意事项

联系人记录

CRM

结构化

每天

日期为 MM/DD/YY 格式

预订

Reserv-o-matic

结构化

实时

日期为 DD/MM/YY 格式。

游览项目

CRM

结构化

每天

日期为 MM/DD/YY 格式

捕获项目的数据要求

项目的数据要求是项目成功所需的基本要求。了解数据要求可以减少不必要的工作。

评估数据质量

高质量的数据创造可靠和有效的 AI 项目。(在数据质量中了解更多关于评估数据质量的信息。) 评估数据质量时,要确定数据不足的地方。这些方面需要进行数据清理。数据清理是修复或删除数据集中不正确、损坏、格式不正确、重复或不完整数据的过程。这包括缩小数据差距。数据清理可能很耗时,所以不要清理项目不需要的数据。

正如 Becca 在她的数据清单中看到的那样,预订日期是 DD/MM/YY 格式,而联系人记录和游览是 MM/DD/YY 格式。日期格式不一致,不符合质量标准。Becca 编写了一个快速程序,将所有预订日期转换为 MM/DD/YY 格式。

当 Becca 清理了更多的数据问题时,她开始意识到有太多的数据让她无法做到完美。Coral Cloud 是一个世界级的度假胜地,每年有成千上万的客人。她感到沮丧,直到她意识到自己高估了项目的数据需求,并且清理了过去几年的预订信息。她只需要清理未来的预订信息,因为只有那些预订才会使用自动登记。Becca 根据未来的日期筛选预订。通过了解项目的数据需求,她现在需要处理的记录变少了。

迁移和整合数据

当数据有多个来源时,您需要迁移数据。这意味着将数据从多个来源引入到中心来源。如果您的项目是在 Salesforce 中构建的,请将外部数据导入 Salesforce。迁移数据之后,通过将来自不同来源的数据组合到一个统一的、全面的视图中来集成数据。只迁移和集成项目所需的数据。这有助于保持项目的可管理性,并避免不必要的数据使系统混乱。

由于 Becca 的项目涉及基于 Reserv-o-matic 中的预订数据和 Salesforce 中的联系人记录创建 Guest Event(客户活动)记录,因此她知道她需要将预订数据链接到联系人记录。否则,流将不知道哪个预订属于哪个联系人。Becca 不想集成不需要的数据,所以她查看预订记录,以确定哪些字段是不需要的。她看到预订有一个 Notes(备注)字段,供客户提出特殊要求。没有特定的格式,许多客户将其留白。Becca 不需要 Notes(备注)字段来创建 Guest Event(客户活动)记录,因此她在将预订迁移到 Salesforce 之前删除了这个字段。

Becca 设置了数据流以从 Reserv-o-matic 引入数据。然后,她使用身份解析将 Salesforce 中的 Sofia 与 Reserv-o-matic 中的 Sofia 进行匹配。现在,Sofia 的记录既有来自 Salesforce 的联系方式,也有来自 Reserv-o-matic 的预订详细信息。

建立数据治理

建立数据治理保证您的数据安全。Becca 使用 Data 360 治理通过访问策略、动态数据屏蔽等安全地管理自己的数据。通过 Data 360 治理:快速了解了解更多内容。

计划分析

想出一个分析计划来衡量成功。这对于监控性能和展示项目的投资回报 (ROI) 非常重要。展示 ROI 是获得项目进一步开发或获得未来 AI 项目支持的关键。

分析计划应该与您在上一单元中概括的项目目标保持一致。作为复习,以下是 Becca 的项目目标。

  • 缩短 50% 的登记时间。
  • 将客户满意度维持在与项目之前相同或更高的水平。

她决定如何收集和分析数据来衡量她的项目是否达到了这些目标。

  • 每天结束时计算前台电脑的屏幕时间。比较执行 AI 登记流程前后的平均屏幕时间。
  • 在每位客人入住结束时提供一项可选的调查,让他们对自己的满意度进行评分。比较执行 AI 登记流程前后的平均满意度。

现在 Becca 有了一个具体的方法,来展示她的项目的影响。

解决数据挑战

为项目定义需求之后,Becca 解决完了最关键的数据挑战,这类挑战通常包括质量问题、集成障碍、数据中的差距,有时甚至是过时的数据基础结构。Becca 知道,如果她不尽早解决这些问题,Coral Cloud 的新 AI 项目可能会建立在不可靠或不准确的数据基础上。

到目前为止,Becca 在她的项目上取得了很大的进展!她像个真正的专家一样处理数据。在下一单元中,您可以了解 Becca 如何评估 AI 项目的风险,以及如何以一种值得信赖的、负责任的方式实施该项目。

资源

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈