Skip to main content

探索智能体测试工具和注意事项

学习目标

完成本单元后,您将能够:

  • 解释测试智能体的重要性。
  • 描述可以用来测试智能体的工具。
  • 讨论智能体测试的注意事项以及减轻其影响的方法。

开始之前

开始此模块前,请考虑完成下列推荐内容。本模块建立在这些模块所提供的知识基础上。

简介

人工智能 (AI) 和 AI 智能体的崛起正在改变我们对软件开发的认知。在许多组织中,多年来一直负责管理和自定义 Salesforce 解决方案的 Salesforce 管理员和开发人员,如今要负责构建 Agentforce 智能体。这需要他们在技能、工具和思维方式上做出转变。虽然我们熟悉的传统应用程序生命周期管理 (ALM) 阶段(包括构思、配置、测试、部署和观察)仍然适用于智能体开发生命周期 (ADL) 流程,但结合生成式 AI 可能会带来意想不到的变数,尤其是在智能体测试方面。

一个展示智能体开发生命周期五个阶段的轮形图,包括构思、配置、测试、部署和观察。

在本模块中,您将了解 Agentforce Studio 中智能体测试和故障排除工具、帮助您进行测试的注意事项,以及可以采用的测试策略,以提高智能体响应的准确性和可预测性。

测试的原因

如果您已获得 Agentforce:智能体规划徽章,说明您已跟随 Coral Cloud 度假村的 Nora Alami 了解了如何规划一个能够创建和管理客户体验的智能体。您了解了如何定义受众、范围、用例、护栏和待办任务等标准。这些规范正是您在测试中需要验证的内容,以确保智能体的性能与设计时预期的功能一致。

智能体测试和故障排除工具

确保智能体能够准确、可预测地响应用户输入可能是一项艰巨的任务,尤其是在考虑到需要通过子智能体、操作和护栏来处理所有用户请求时。由于涉及的变量较多,响应不准确、错误提示和幻觉的原因可能源于指令、操作、数据和权限集。因此,Agentforce Studio 提供两种级别的测试,帮助您确保智能体能够提供可靠且可预测的响应:在 Agentforce 生成器中预览测试,以及在测试套件 (Beta) 中进行大规模测试。

Agentforce 生成器测试和故障排除工具

Agentforce 生成器提供多种工具,可让您测试对话并查看智能体如何生成响应,以便您在向用户推出智能体之前对其进行迭代优化。我们来看一看。

预览 (1):最令人兴奋的是,您现在可以在 Agentforce 生成器的 Preview(预览)面板中与智能体展开对话。借助 Preview(预览)面板,您可以试用用户与智能体的对话,并查看智能体的响应是否符合预期。您可以选择以下两种预览模式 (2):

  • 模拟 - 用模拟数据和操作测试您的智能体。
  • 现场测试 - 使用真实数据以查看智能体表现如何。

通过 Preview(预览)中生成的输出,您可以了解智能体是否提供了有帮助且相关的响应,是否调用了正确的操作,是否正确引用了您的业务流程,以及是否在您设置的护栏范围内运行。

交互摘要 (3):概述智能体返回响应时所使用的步骤,包括其调用的子智能体和推理。

Agentforce 会话跟踪 (4):查看智能体会话期间发生的每个细节,以便调查或排查智能体交互问题。在文本或代码视图 (5) 中查看推理引擎的执行、操作、提示以及网关输入/输出、错误提示和最终响应,所有内容均归类在每个会话的会话 ID 下。Agentforce 会话跟踪需要使用 Data 360。

Agentforce 生成器预览面板,显示提示“我想预订一场‘满月海滩体验’活动”,以及响应内容“为了帮助您预订‘满月海滩体验’活动,我需要先验证您的信息。能否请您提供您的电子邮件地址和会员编号?” 它还显示交互摘要面板,其中显示该智能体得出响应所使用的步骤,包括输入、子智能体、推理以及输出评估,同时还显示会话跟踪详细信息和会话 ID。

在您的智能体启动后,Agentforce 会话跟踪同样非常有用,因为它可以让您查看用户与智能体之间的各种对话交流,包括智能体收到的输入以及智能体的响应方式。这有助于您查找并修复问题,或调整智能体处理意料之外的输入。会话跟踪还能使您了解是否需要设置额外的护栏,或优化指令或操作,以确保智能体能够做出更具针对性的响应。

Agentforce Studio 测试套件

在 Agentforce 生成器中改进了智能体的性能后,您可以在 Agentforce Studio 测试套件 (Beta) 中进行批量测试。要访问测试套件 (Beta),请在应用程序启动器中打开 Agentforce Studio,然后单击 Tests(测试)。

Agentforce Studio 菜单,显示已选择的测试。

您可能想知道,既然已经在 Agentforce 生成器的 Preview(预览)中测试过智能体,为什么还需要在测试套件 (Beta) 中进行批量测试?这是因为,设想用户可能提问以及与智能体交互的方式,然后在预览窗口中逐一测试,确实非常耗时。测试套件 (Beta) 可以一次性测试数十甚至数百个场景,从而简化测试流程。例如,您可以上载一个用自然语言编写的测试场景的 .csv 文件,或者让测试套件 (Beta) 使用 AI 生成与智能体将要执行的任务相关的测试输入。

运行批量测试时,结果会显示测试的输入,以及它调用的预期和实际子智能体和操作、预期响应,以及每个输入是否通过或失败。如果您需要了解测试输入失败的原因,可以复制输入并粘贴到 Agentforce 生成器的 Preview(预览)面板中,并在计划画布上查看智能体生成失败响应的路径。这有助于您进一步优化指令,从而改善用户体验。有关测试套件 (Beta) 以及编写或生成测试场景的详细信息,请参阅 Agentforce:智能体测试

智能体测试注意事项

在传统的应用程序测试中,应用程序的每个细节在构建之前就已规划好。成功的衡量标准是生成可预测、可重复的结果——也就是确定性的结果。解决方案要么按预期运行,要么不运行。另一方面,智能体开发虽然也需要前期规划,但还需要在构建过程中不断调整、测试和修改智能体。智能体测试是概率性的。这意味着生成式 AI 缺乏基于规则的逻辑,从而导致生成的结果不那么可预测、独一无二,有时甚至令人惊讶。相同的输入可以生成许多不同但仍然正确的响应,也可能产生一些错误的响应,甚至偶尔会出现幻觉。由于很难预测用户可能与智能体交互的所有方式,因此需在构建过程中考虑和测试各种场景。这样可以最大限度地减少与用户输入不匹配和错误响应。

确定智能体是否已准备好投入生产

由于智能体的行为具有概率性,因此难以确定智能体何时才能投入生产。每个企业都需要针对不同的场景设定自己的合格/不合格基准。没有正确的答案,而且不同行业所需的精准度也各不相同。首先,可以考虑人类在执行相同任务(例如处理预约问题)时的准确度,并以此作为基准。然后,您可以努力确保您的智能体达到或超越这个准确度水平。

务必在 Sandbox 中测试

由于智能体测试可能会更改 CRM 数据,因此测试套件 (Beta) 只能在 Sandbox 环境中使用,而不能在生产环境中使用。

使用多个标准评估响应

要从 Preview(预览)面板中的输入中获得所需的响应,可能需要一些尝试和错误。构建智能体是一个迭代过程。为应对不同类型的输入,需要进行一些修改,包括措辞润色、检查权限、验证数据,并在指令中添加细节和护栏。计划画布、事件日志和测试套件 (Beta) 中的反馈将帮助您深入了解并确定需要改进智能体子智能体、操作和指令的地方,从而使响应更接近您期望的准确度。

以下是在测试智能体时需要考虑的几个关键点以及解决这些问题的方法。

测试注意事项

优化智能体的方法

智能体遵守我的指令吗?

  • 改进现有指令的措辞或添加指令,以覆盖不同类型的输入。

响应是否准确、完整且易于阅读?

  • 确认智能体访问的数据是正确的。
  • 将操作或指令分解成可以逐个处理的小片段。
  • 根据公司的风格,优化指令中的措辞。

响应是否基于我的数据?

  • 修改指令以调用所需的数据。
  • 确认智能体拥有访问所有必要数据所需的权限。
  • 请确保访问的数据是最新且准确的。

响应是否符合我的品牌声音?

  • 根据公司使用的术语和措辞改进指令。
  • 在语言设置选项卡中调整语气。

响应花了多长时间?

  • 明确指令。
  • 将操作和指令分解成小片段。

响应中是否存在偏见或伤害?

  • 优化或添加指令的护栏。

响应每次都可靠吗?

  • 确定智能体的响应是否达到或超过准确性基准。

测试成本

最后一个测试注意事项是运行测试的成本。在测试套件 (Beta) 中测试您的智能体可能会消耗请求或额度。这些请求和额度属于生成式 AI 的付费使用指标,会对您的组织产生相应的费用。如需了解更多信息,请参阅生成式 AI 计费使用类型帮助文档或联系您的客户主管。

总结

智能体测试需要与传统应用程序测试不同的思维方式和方法。考虑到影响智能体响应的变量众多,智能体测试的成功与否往往比传统软件测试更具主观性也就不足为奇了。通过掌握 Agentforce 的测试工具并了解如何缓解影响智能体性能的因素,您可以更快地达到所需的准确度。在下一单元中,您将了解创建智能体测试策略来指导测试的重要性。

资源

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈