准备数据
学习目标
完成本单元后,您将能够:
- 解释如何识别和解决数据挑战。
- 为您的项目定义数据要求。
数据准备就绪的重要性
您的组织需要为启动 AI 项目做好数据准备,这意味着项目的数据需要是准确的、可用的、可访问的和安全管理的。
在许多组织中,数据质量是实施 AI 项目的巨大障碍,而且理由很充分!数据是 AI 算法的基础,让算法能够学习、适应并做出更好的决策。高质量的数据可以提高 AI 系统的准确性、效率、可靠性和公平性。
在实施 AI 项目之前,解决数据质量问题至关重要。但是,不要让完美数据的想法阻碍了项目。许多项目在数据准备方面陷入困境,因为团队试图追求完美。相反,应该与您的团队一起确定数据准备的合理目标。您可以通过构建阶段来识别和解决影响 AI 输出的任意数据差距。
本单元概述了如何评估数据质量以及为 AI 项目准备数据。
创建数据清单
Becca 知道获得项目完整数据视图的最佳方法是创建数据清单。数据清单可以帮助您管理各种数据资产并识别潜在问题。
按照以下步骤创建您的数据清单。
- 确定项目中需要的数据。
- 确定数据的存储位置。
- 回答一些关于数据的问题。
- 数据类型是结构化的、非结构化的还是半结构化的?(可以在 AI 的数据基础知识中了解更多关于数据分类的信息。)
- 数据多久刷新一次?
- 数据是实时更新、每小时更新、每天更新、每月更新还是静态更新?
- 如何访问数据?
- 是否为数据实施了治理标准?
- 在您的项目中,哪些数据方面的考虑可能会带来挑战?
- 数据类型是结构化的、非结构化的还是半结构化的?(可以在 AI 的数据基础知识中了解更多关于数据分类的信息。)
Coral Cloud 的数据清单
让我们继续 Becca 的 AI 项目,为 Coral Cloud 度假村实现登记过程自动化。作为复习,这是 Becca 的实施计划,关键数据点以粗体显示。
- 根据 Data Cloud 中的最新预订数据,使用流创建 Guest Event(客户活动)记录。
- 教 Einstein Copilot 如何通过对话语言启动流。例如,当客人 Sofia Rodriguez 抵达要入住时,工作人员可以简单地让 Einstein“为 Sofia Rodriguez 办理入住登记”,Einstein 会完成剩下的事情!
- 使用提示生成器生成个性化的欢迎电子邮件,其中提供客人可能感兴趣的游览项目建议并发送。
Becca 仔细查看她的计划,以找出实施解决方案所需的数据。
- 在第 1 步中,她需要预订数据。Coral Cloud 使用一个名为 Reserv-o-matic 的外部平台来存储预订数据,因此她用 Data Cloud 将这些数据导入 Salesforce。
- 在第 2 步中,她需要能够根据客户名检索预订数据。客户数据在 Salesforce 中。
- 在第 3 步中,她需要客人之前购买过的游览项目数据。客户购买历史记录也在 Salesforce 中。
在跟踪所需的数据源之后,Becca 创建了一个数据清单。
数据名称 | 数据源 | 数据类型 | 更新节奏 | 注意事项 |
---|---|---|---|---|
联系人记录 | CRM | 结构化 | 每天 | 日期为 MM/DD/YY 格式 |
预订 | Reserv-o-matic | 结构化 | 实时 | 日期为 DD/MM/YY 格式。 |
游览项目 | CRM | 结构化 | 每天 | 日期为 MM/DD/YY 格式 |
捕获项目的数据要求
项目的数据要求是项目成功所需的基本要求。了解数据要求可以减少不必要的工作。
评估数据质量
高质量的数据创造可靠和有效的 AI 项目。(在数据质量中了解更多关于评估数据质量的信息。)评估数据质量时,要确定数据不足的地方。这些方面需要进行数据清理。数据清理是修复或删除数据集中不正确、损坏、格式不正确、重复或不完整数据的过程。这包括缩小数据差距。数据清理可能很耗时,所以不要清理项目不需要的数据。
正如 Becca 在她的数据清单中看到的那样,预订日期是 DD/MM/YY 格式,而联系人记录和游览是 MM/DD/YY 格式。日期格式不一致,不符合质量标准。Becca 编写了一个快速程序,将所有预订日期转换为 MM/DD/YY 格式。
当 Becca 清理了更多的数据问题时,她开始意识到有太多的数据让她无法做到完美。Coral Cloud 是一个世界级的度假胜地,每年有成千上万的客人。她感到沮丧,直到她意识到自己高估了项目的数据需求,并且清理了过去几年的预订信息。她只需要清理未来的预订信息,因为只有那些预订才会使用自动登记。Becca 根据未来的日期筛选预订。通过了解项目的数据需求,她现在需要处理的记录变少了。
迁移和整合数据
当数据有多个来源时,您需要迁移数据。这意味着将数据从一个来源引入到中心来源。如果您的项目是在 Salesforce 中构建的,请将外部数据导入 Salesforce。迁移数据之后,通过将来自不同来源的数据组合到一个统一的、全面的视图中来集成数据。只迁移和集成项目所需的数据。这有助于保持项目的可管理性,并避免不必要的数据使系统混乱。
由于 Becca 的项目涉及基于 Reserv-o-matic 中的预订数据和 Salesforce 中的联系人记录创建 Guest Event(客户活动)记录,因此她知道她需要将预订数据链接到联系人记录。否则,流将不知道哪个预订属于哪个联系人。Becca 不想集成不需要的数据,所以她查看预订记录,以确定哪些字段是不需要的。她看到预订有一个 Notes(备注)字段,供客户提出特殊要求。没有特定的格式,许多客户将其留白。Becca 不需要 Notes(备注)字段来创建 Guest Event(客户活动)记录,因此她在将预订迁移到 Salesforce 之前删除了这个字段。
Becca 设置了数据流以从 Reserv-o-matic 引入数据。然后,她使用身份解析将 Salesforce 中的 Sofia 与 Reserv-o-matic 中的 Sofia 进行匹配。现在,Sofia 的记录既有来自 Salesforce 的联系方式,也有来自 Reserv-o-matic 的预订详细信息。
建立数据治理
使用数据的人越少,数据就越一致。将治理权限仅授予必要的人。在 Becca 这种情况下,她只给自己和她的经理访问权限。
计划分析
想出一个分析计划来衡量成功。这对于监控性能和展示项目的投资回报 (ROI) 非常重要。展示 ROI 是获得项目进一步开发或获得未来 AI 项目支持的关键。
分析计划应该与您在上一单元中概括的项目目标保持一致。作为复习,以下是 Becca 的项目目标。
- 缩短 50% 的登记时间。
- 将客户满意度维持在与项目之前相同或更高的水平。
她决定如何收集和分析数据来衡量她的项目是否达到了这些目标。Becca 提出了这一计划。
- 每天结束时计算前台电脑的屏幕时间。比较执行 AI 登记流程前后的平均屏幕时间。
- 在每位客人入住结束时提供一项可选的调查,让他们对自己的满意度进行评分。比较执行 AI 登记流程前后的平均满意度。
现在 Becca 有了一个具体的方法,来展示她的项目的影响。
解决数据挑战
为项目定义需求之后,Becca 解决完了最关键的数据挑战,这类挑战通常包括质量问题、集成障碍、数据中的差距,有时甚至是过时的数据基础结构。Becca 知道,如果她不尽早解决这些问题,Coral Cloud 的新 AI 项目可能会建立在不可靠或不准确的数据基础上。
到目前为止,Becca 在她的项目上取得了很大的进展!她像个真正的专家一样处理数据。在下一单元中,您可以了解 Becca 如何评估 AI 项目的风险,以及如何以一种值得信赖的、负责任的方式实施该项目。