构建 CRM Analytics 数据集
学习目标
完成本单元后,您将能够:
- 说明为 Einstein Discovery 准备数据进行分析的重要性。
- 创建 CRM Analytics 数据集并填充示例数据。
为 Einstein Discovery 准备数据
选择要改进的业务成果后,您需要收集和准备数据以供 Einstein Discovery 分析。哪些数据与结果相关,哪些不相关呢?
为了回答这个问题,数据科学家通常会运用他们丰富的专业知识和业务知识来研究、实验和调查数据。他们的前期投入得到了一组优化的高质量数据作为回报,这些数据可用于透彻的分析和模型训练。
理想情况下,您的数据集:
- 包括与您要调查和改进的业务成果关联的所有相关因素
- 省略了增加复杂性但没有分析价值的无关列
- 包含对您所专注的结果的实际操作具有代表性的高质量数据
Einstein Discovery 和 CRM Analytics 数据平台提供了一套无代码的自动化工具,您可以利用这些工具为您完成所有繁重的工作,从而加快这一过程。CRM Analytics 数据平台为您提供了一套数据工程工具和机制,帮助您:
-
提取来自众多不同数据源的数据。
-
加载数据到您设计的 CRM Analytics 数据集中。
-
转换数据以最大限度地提高数据质量,为分析做好准备。
Einstein Discovery 可以分析数百万行和很多列的数据。还可以帮您选择哪些列与要改进的结果联系最紧密。
在本模块中,我们为您提供了一个可下载的 CSV 文件,其中包含您提取以创建和填充 CRM Analytics 数据集的示例业务机会历史数据,从而简化了操作。这样,您就可以快速开始使用 Einstein Discovery 来分析这些数据、部署模型并获得预测和改进。
在 Developer Edition 组织中试用 Einstein Discovery
如果您想完成此 Trailhead 模块中的步骤,请注册一个免费的 CRM Analytics Developer Edition 组织。该组织是一个安全的环境,可供您练习正在学习的技能。
备注:对于本学习路径,您不能使用现有的 Developer Edition 组织,而是需要注册这个专用的 Developer Edition 组织,因为:
- 它自带 Einstein Discovery 要求的 CRM Analytics Plus 许可证。
- 它拥有访问 Einstein Discovery 功能要求的 CRM Analytics Plus 权限集。这包括创建连接的应用程序以验证 REST 客户端请求所需的管理连接的应用程序权限。
即使您已经有一个 CRM Analytics Developer Edition 组织,也请注册一个新的。旧版 CRM Analytics Developer Edition 组织没有最新发布的功能。注册一个新的可以确保您得到最新、最棒的功能。
注册步骤
让我们一起进行设置,以便您可以登录并开始使用。
- 前往 trailhead.salesforce.com/promo/orgs/analytics-de。
- 用有效的电子邮件地址填写表格。
- 表格填好以后,单击 Sign me up(我要注册)。出现一条确认消息。
- 当您收到激活邮件时,打开它并单击链接。
- 完成注册,设置密码和找回密码的问题。
- 单击保存。您已登录 CRM Analytics Developer Edition 组织,并重定向到 Setup(设置)页面。
好样的!现在您有一个 Salesforce 组织了!我们进去看看。
备注:稍后在本模块中,您需要用到您的凭据。请务必将它们保存在安全的地方,以便在需要时检索它们。
下载示例数据
我们准备了一个文件,其中包含业务机会历史的示例训练数据。请下载名为 opportunity_history.csv 的 CSV 文件并把它保存到您的电脑。
创建并填充 CRM Analytics 数据集
下一步是把这个 CSV 文件中的数据移到 CRM Analytics 数据集中。
注意:为获得最佳体验,请确保您的浏览器允许弹窗。
- 如果您尚未登录,请登录您刚刚注册的 Developer Edition 组织。
- 从应用程序启动器 查找并选择 Analytics Studio。
- 在 Analytics Studio 主页选项卡上,单击 Create(创建),选择 Dataset(数据集),然后选择 CSV File(CSV 文件)。
- 在打开的文件选择窗口中,找到您下载的 CSV 文件 opportunity_history.csv,选择它,然后单击 Next(下一步)。
- 在 Dataset Name(数据集名称)字段中,根据需要更改默认名称 (opportunity_history)。Analytics Studio 默认把文件名用作数据集名称。名称不能超过 80 个字符。
- 选择要创建数据集的应用程序。Analytics Studio 默认选择 My Private App(我的专用应用程序)。
- 单击 Next(下一步)。Edit Field Attributes(编辑字段属性)屏幕出现了。在这里,您可以预览数据,查看或编辑每个字段的属性。
- 目前先接受默认设置,单击 Upload File(上载文件)。Analytics Studio 上载数据,准备并创建数据集,并向您显示进度。
完成后,您会看到有关您创建的数据集的详细信息。如果没有看到数据集详细信息,请看一下您的数据集或在 Analytics Studio 中搜索 opportunity_history。
在数据集行上,从下拉列表中选择 Edit(编辑)以访问数据集详细信息。
关于示例数据的注意事项
此示例训练数据已经过简化,因此您可以专注于学习如何使用 Einstein Discovery。使用此示例数据时,请记住以下几点。
- 我们的示例 CSV 文件包含的列较少。在实践中,您的用例可能涉及更多列的训练数据。
- 我们的示例 CSV 文件包含大约 7,000 行数据。一般来说,您可以分析的数据行数越多,结果越好。Einstein Discovery 需要至少 400 行(带结果值)来构建模型。
- 在训练模型时,Einstein 会忽略没有结果值的行。借助 AI 和机器学习,您可以用 Einstein Discovery 分析最多 2000 万行数据。
- 示例数据以业务机会为模型。在实践中,您的用例可能涉及多个 Salesforce 对象中的数据、Salesforce 外部的数据或两者的组合。
- 通过此示例数据构建的模型用于我们的 Trailhead 模型,来展示一些基础知识。它旨在让您快速完成设置并运行。但是,此示例数据生成的模型并不高度准确,也不是您最终部署到生产中的质量模型的范例。模型的性能取决于训练数据集的质量。要了解更多信息,请参阅 Salesforce 帮助中的 准备数据进行分析。
接下来做什么?
现在您已经构建了 CRM Analytics 数据集,让我们用它来创建一个模型。
资源
- Salesforce 帮助:准备数据进行分析
- Salesforce 帮助:从上载的 CSV 文件创建数据集
- Salesforce 帮助:集成和准备数据以进行分析
- Trailhead:构建和管理 CRM Analytics