借助真实数据升级 AI

学习目标

完成本单元后，您将能够：

描述使用 Agentforce 数据库的优势。
定义 AI 数据转换和组织中涉及的四个关键概念。
解释 Agentforce 数据库的设置和运行时过程是如何工作的。

开始之前

开始此模块前，请考虑完成下列推荐内容。

AI Knowledge 落地训练：快速了解

为什么要使用数据对 AI 进行落地训练？

您的数据在确保 AI 系统准确高效运行方面发挥着至关重要的作用。如果给顾客提供了错误的答案，可能会影响他们今后的购买。如果向服务代表提供不正确的信息，他们可能会让客户感到沮丧，而不是为其提供支持。如果向销售代表提供过时的建议，他们可能会无法完成销售目标，并错失宝贵的商业机会。

数据是任何成功的 AI 系统的基石，但 AI 模型天生是多面手：它们基于海量数据集进行训练，从而获得广泛的知识基础。但是，这种广泛的知识库意味着他们不具备执行特定任务或解答针对您特定用例的技术问题所需的专业信息。

真实数据的落地训练让 AI 模型超越了静态训练集。当您对建立在经过验证的信息来源上的 AI 模型进行落地训练，例如 Salesforce Knowledge 库、上传的文件或网站时，LLM 就能更准确地回应客户的查询，为智能体提供更恰当的回复，支持复杂的搜索摘要等等。

示意图，包含了知识、文件和 Web 搜索的符号，指向另一个标有 AI 落地训练的气泡，该气泡又连接着一个带有 Agentforce 符号的聊天窗口。

企业数据的挑战

大多数公司以非结构化格式存储知识库，例如视频、图像、文档、电子邮件、传感器数据、社交帖子、音频文件等——这些格式无法直接导入电子表格或数据库。这类数据占企业数据的近 90%，虽然搜索难度较大，但却包含宝贵信息，例如客户反馈、看法、观点、语气和情绪。那么，您该如何释放这些数据的价值呢？

Agentforce 数据库是一款功能强大的工具，可帮助您基于真实数据对 AI 进行落地训练。借助 Agentforce 数据库，您可以轻松地将知识库连接到 Salesforce AI 功能，确保获得最新、由 AI 生成且符合您组织和用例的内容。设置 Agentforce 数据库后，您将获得所需的工具，可以将大量非结构化或半结构化数据转换为更有用、更易于搜索的内容。让我们来看看这是如何实现的。

转换数据以便大语言模型高效应用

Agentforce 数据库通过自动化 Data 360 和提示生成器中的多个配置步骤，轻松将智能体和大语言模型 (LLM) 连接到您的非结构化数据。这些步骤包括将数据流推送到 Data 360、映射数据对象以及创建搜索索引和检索器。最终，您的 AI 工具始终能够使用最新、最相关的信息。

在学习设置数据库的简单步骤之前，让我们先回顾几个关键概念：落地训练、分块、索引和检索器。

基础训练

落地训练是指在提示中添加域特定知识或客户信息，从而为 LLM 提供所需的上下文，使其能够更准确地回答问题或完成任务。正如我们之前提到的，落地训练来源可以包括 Knowledge 文章、上传的文件、网站、对话记录等等。然而，冗长复杂的文档搜索起来既耗时又耗费资源，而且 LLM 在一次处理文本时会有一定的最大令牌数或字数限制。

分块和索引

为解决这些限制，我们将数据源分解成更小的部分，称为区块。区块是小型且易于处理的数据片段，例如段落或章节，这些片段本身具有完整的语义。将数据分解为区块，使系统能够检索具体且相关的段落，而非整个文档。我们搜索这些区块，并仅返回其中最相关的信息给 LLM 处理。

分块和索引流程示意图

数据分块后，会被整理并分类到搜索索引中。将信息存储在有序的搜索索引中，可以更轻松快捷地检索所需的具体数据。这种分块和组织方式能够提高搜索效率，提升搜索结果的相关性，并支持处理海量数据集。

想象一下拥有数百万件产品的大型网上商店。一个组织良好的商店目录或网站分类体系，能够帮助客户根据名称、类型、品牌甚至特定功能等类别，快速找到他们想要的产品。将数据分解成更小的部分（每个片段捕捉一个单一概念或特征），并将其组织成搜索索引，就好比为您的内容创建一个目录。LLM 可以利用这个目录或索引找到正确的信息，从而响应用户的查询。

检索器

检索器充当数据和功能之间的指针。它们旨在自动从不同的数据库、系统或平台中提取并提供相关数据。当用户提出问题时，分配给每个数据库的检索器会决定特定 Salesforce AI 工具可以访问 Data 360 中的哪些数据集。这使得检索器在搜索引擎、问答系统和推荐系统等应用程序中尤为重要。

您刚刚学习了一些 AI 数据组织的基础知识。接下来，我们来看看这些流程在数据库设置和运行时是如何运作的。

设置阶段会发生什么？

创建数据库时，连接数据与 AI 智能体和功能的流程会立即启动。首先，创建数据流，然后创建数据湖和数据模型对象。这些对象随后会被映射在一起，并开始数据分块。分块所需时间取决于 Knowledge 文章或上传文件的数量、大小和复杂程度，以及分块所选择的知识字段数量等因素。完成分块后，搜索索引准备就绪，此时会创建一个检索器。每个 Agentforce 数据库都有其唯一检索器，可以指向同一个搜索索引，但各自独立运行。

Agentforce 数据库流程示意图

运行时会发生什么？

完成检索器设置且搜索索引完全准备就绪后，系统即可在运行时处理用户查询。

在运行时，用户的查询会被添加到提示模板中，该模板会引用连接到相关数据的检索器。然后，系统会在搜索索引中进行搜索以找到最相关的信息，并将其纳入提示中。LLM 会接收到这个增强提示，其中包含用户的查询、添加的信息和提示说明，然后生成响应。服务计划器会查看此响应，以确保其与提示说明一致。最后，最终用户会收到一个能够准确回答查询并包含针对特定任务定制的、与域相关的上下文信息的响应。

展示运行时流程的流程图

我们来总结一下

做的不错！在本单元中，您学习了为什么基于数据对 AI 进行落地训练至关重要，并且探索了一些专业术语和技术流程。现在需要进行设置，您会发现其实非常简单！

时间估计

主题

需要帮助？

Agentforce 资源