探索智能体测试工具和注意事项
学习目标
完成本单元后,您将能够:
- 解释测试智能体的重要性。
- 描述可以用来测试智能体的工具。
- 讨论智能体测试的注意事项以及减轻其影响的方法。
开始之前
开始此模块前,请考虑完成下列推荐内容。本模块建立在这些模块所提供的知识基础上。
简介
人工智能 (AI) 和 AI 智能体的崛起正在改变我们对软件开发的认知。在许多组织中,多年来一直负责管理和自定义 Salesforce 解决方案的 Salesforce 管理员和开发人员,如今要负责构建 Agentforce 智能体。这需要他们在技能、工具和思维方式上做出转变。虽然我们熟悉的传统应用程序生命周期管理 (ALM) 阶段(包括构思、配置、测试、部署和观察)仍然适用于智能体开发生命周期 (ADL) 流程,但结合生成式 AI 可能会带来意想不到的变数,尤其是在智能体测试方面。

在本模块中,您将了解智能体测试和故障排除工具、帮助您进行测试的注意事项,以及可以采用的测试策略,以提高智能体响应的准确性和可预测性。
测试的原因
如果您已获得 Agentforce:智能体规划徽章,说明您已跟随 Coral Cloud 度假村的 Nora Alami 了解了如何规划一个能够创建和管理客户预约的智能体。您了解了如何定义受众、范围、用例、护栏和待办任务等标准。这些规范正是您在测试中需要验证的内容,以确保智能体的性能与设计时预期的功能一致。
智能体测试和故障排除工具
确保智能体能够准确、可预测地响应用户输入可能是一项艰巨的任务,尤其是在考虑到需要通过主题、操作和护栏来处理所有用户请求时。由于涉及的变量较多,响应不准确、错误提示和幻觉的原因可能源于指令、操作、数据和权限集。因此,Agentforce Studio 提供两种级别的测试,帮助您确保智能体能够提供可靠且可预测的响应:在 Agentforce 生成器中进行手动测试,以及在测试中心进行大规模测试。
Agentforce 生成器测试和故障排除工具
在 Agentforce 创建器中构建智能体后,即可在 Agentforce 生成器中开始测试。在 Conversation Preview(对话预览)面板中尝试进行对话,查看智能体的表现。您可以通过查看计划画布上的详细信息,了解智能体返回您所收到的响应所采取的步骤。并在智能体的事件日志中查看特定会话和对话的详细信息。
对话预览 (1):最令人兴奋的是,您现在可以在 Agentforce 生成器的 Conversation Preview(对话预览)面板中与智能体展开对话。在这里,您可以模拟用户与智能体的对话,并查看智能体的响应是否符合预期。通过生成的响应,您可以了解智能体是否提供了有帮助且相关的响应,是否调用了正确的操作,是否正确引用了您的业务流程,以及是否在您设置的护栏范围内运行。
计划画布 (2):当您在对话预览聊天窗口中输入内容时,中间面板(称为“计划画布”)会更新,向您展示智能体如何生成响应。计划画布会显示您的初始输入、智能体选择的主题、调用的操作以及使用的指令。您还可以查看智能体生成响应的推理过程,以及智能体获准使用的任何相关数据,以便提供更个性化、更准确的响应。
您收到的响应和详细信息可以帮助您精准定位需要优化的地方,从而生成符合您的计划的响应。您可以测试输入,修改智能体,然后再次测试。只需在输入之间刷新 Conversation Preview(对话预览)窗口即可应用更新。

增强事件日志
尽管每次刷新智能体,Conversation Preview(对话预览)面板中的交互详情都会消失,但 Enhanced Event Logs(增强事件日志)会捕获并存储智能体会话中的交互,方便您查看对话流来改进智能体响应。要使用 Enhanced Event Logs(增强事件日志),请在 Agentforce 创建器的 Customize your agent(自定义您的智能体)屏幕上选中 Keep a record of conversations with Enhanced Event Logs to review agent behavior(使用增强事件日志记录对话,以审查智能体行为)复选框来启用该设置。您也可以稍后在智能体 Settings(设置)的 Details(详细信息)选项卡中启用 Enhanced Event Logs(增强事件日志)。

在您的智能体启动后,访问增强事件日志将非常有用,因为它可以让您查看用户与智能体之间的各种对话交流,包括智能体收到的输入以及智能体的响应方式。这有助于您查找并修复问题,或调整智能体处理意料之外的输入。事件日志还能使您了解是否需要设置额外的护栏,或优化指令或操作,以确保智能体能够做出更具针对性的响应。Agentforce 生成器会将事件日志存储 7 天,方便您在一个地方随时查看对话数据和会话活动。

测试中心
在 Agentforce 生成器中改进了智能体的性能后,您可以在测试中心进行批量测试。要在 Setup(设置)中访问 Testing Center(测试中心),请在 Quick Find(快速查找)框中搜索并选择 Testing Center(测试中心)。或者,在 Agentforce 生成器中,单击 Conversation Preview(对话预览)面板上方的 Batch Test(批量测试)按钮。

您可能想知道,既然已经在 Agentforce 生成器中测试过智能体,为什么还需要在测试中心中进行批量测试?这是因为,设想用户可能提问以及与智能体交互的方式,然后在对话预览窗口中逐一测试,确实非常耗时。测试中心可以一次性测试数十甚至数百个场景,从而简化测试流程。例如,您可以上载一个用自然语言编写的测试场景的 .csv 文件,或者让测试中心使用 AI 生成与智能体将要执行的任务相关的测试输入。
运行批量测试时,结果会显示测试的输入,以及它调用的预期和实际主题和操作、预期响应,以及每个输入是否通过或失败。如果您需要了解测试输入失败的原因,可以复制输入并粘贴到 Agentforce 生成器的 Conversation Preview(对话预览)面板中,并在计划画布上查看智能体生成失败响应的路径。这有助于您进一步优化指令,从而改善用户体验。有关测试中心以及编写或生成测试场景的详细信息,请参阅 Agentforce:智能体测试。
智能体测试注意事项
在传统的应用程序测试中,应用程序的每个细节在构建之前就已规划好。成功的衡量标准是生成可预测、可重复的结果——也就是确定性的结果。解决方案要么按预期运行,要么不运行。另一方面,智能体开发虽然也需要前期规划,但还需要在构建过程中不断调整、测试和修改智能体。智能体测试是概率性的。这意味着生成式 AI 缺乏基于规则的逻辑,从而导致生成的结果不那么可可预测、独一无二,有时甚至令人惊讶。相同的输入可以生成各种不同的响应,包括正确响应、错误响应,甚至幻觉。由于很难预测用户可能与智能体交互的所有方式,因此需在构建过程中考虑和测试各种场景。这样可以最大限度地减少与用户输入不匹配和错误响应。
确定智能体是否已准备好投入生产
由于智能体的行为具有概率性,因此难以确定智能体何时才能投入生产。每个企业都需要针对不同的场景设定自己的合格/不合格基准。没有正确的答案,而且不同行业所需的精准度也各不相同。首先,可以考虑人类在执行相同任务(例如处理预约问题)时的准确度,并以此作为基准。然后,您可以努力确保您的智能体达到或超越这个准确度水平。
务必在 Sandbox 中测试
由于智能体测试可能会更改 CRM 数据,因此测试中心只能在 Sandbox 环境中使用,而不能在生产环境中使用。
使用多个标准评估响应
要从 Conversation Preview(对话预览)面板中的输入中获得所需的响应,可能需要一些尝试和错误。构建智能体是一个迭代过程。为应对不同类型的输入,需要进行一些修改,包括措辞润色、检查权限、验证数据,并在指令中添加细节和护栏。计划画布、事件日志和测试中心中的反馈将帮助您深入了解并确定需要改进智能体主题、操作和指令的地方,从而使响应更接近您期望的准确度。
以下是在测试智能体时需要考虑的几个关键点以及解决这些问题的方法。
测试注意事项 |
优化智能体的方法 |
|---|---|
智能体遵守我的指令吗? |
|
响应是否准确、完整且易于阅读? |
|
响应是否基于我的数据? |
|
响应是否符合我的品牌声音? |
|
响应花了多长时间? |
|
响应中是否存在偏见或伤害? |
|
响应每次都可靠吗? |
|
测试成本
最后一个测试注意事项是运行测试的成本。在测试中心测试智能体除了会消耗 Flex 额度、Conversation 额度和 Einstein 请求之外,还会消耗 Data 360 额度。这些请求和额度属于生成式 AI 的付费使用指标,会对您的组织产生相应的费用。如需了解更多信息,请参阅生成式 AI 计费使用类型帮助文档或联系您的客户主管。
总结
智能体测试需要与传统应用程序测试不同的思维方式和方法。考虑到影响智能体响应的变量众多,智能体测试的成功与否往往比传统软件测试更具主观性也就不足为奇了。通过掌握 Agentforce 的测试工具并了解如何缓解影响智能体性能的因素,您可以更快地达到所需的准确度。在下一单元中,您将了解创建智能体测试策略来指导测试的重要性。
