使用五步测试策略优化智能体

学习目标

完成本单元后，您将能够：

解释为什么在开始测试智能体之前制定测试策略很重要。
描述智能体测试的五步策略。

为什么要遵循测试策略？

智能体测试是发布可靠、值得信赖的智能体的基础。Agentforce Studio 工具提供了多种方法来确保您的智能体能够正确处理您为其规划的任务。正如我们在上一单元中所了解到的，全面测试用户与智能体交互的多种方式可能具有挑战性。由于涉及的变量众多，因此在开始之前制定测试策略是明智之举。在本单元中，您将了解如何在 Agentforce 生成器中优化智能体之后进行测试。

测试智能体的五步策略

AI 智能体测试循环是一个循序渐进的策略，用于微调您的智能体并使其达到适合用户使用的状态。您可以创建测试场景、选择评估指标并运行自动化测试。然后，您可以验证结果，并利用反馈进一步优化智能体的各个部分，以提高其准确性和性能。

Agentforce 五步策略，用于测试与以下步骤描述相对应的智能体。

步骤 1：确定测试场景并创建测试数据。

在 Preview（预览）面板中手动测试各种用户输入并根据它们的响应修改智能体后，您就可以在测试套件 (Beta) 中对智能体进行批量测试了。批量测试的第一步是确定要测试的输入类型。您可以使用自然语言编写并上传自己的测试场景，也可以在测试套件 (Beta) 中单击 Create test suite（创建测试套件）以利用 AI，根据智能体的元数据以及您有权访问的数据生成测试个案。无论您是自己编写测试场景还是让 AI 生成，了解优秀测试场景的构成要素都非常重要。让我们一起来看看。

在规划智能体时，您定义了它的范围和功能。例如，我们的 Coral Cloud 服务智能体包含以下子智能体和操作，这些子智能体和操作定义了智能体将处理的与体验相关的一些工作和任务。

Experience Management（体验管理）子智能体负责处理客户关于 Coral Cloud 度假村预订体验的咨询，包括进行预订、修改活动预订信息以及解答有关体验详细信息的疑问。
Create Experience Session Booking（创建体验会话预订）操作使用流为一位或多位客人创建新的体验预订。

要创建好的测试场景，请在 Agentforce 生成器中查看智能体的子智能体，包括 Classification Description（分类描述）和 Scope（范围）字段，它们描述了智能体应操作的功能和参数范围。同时，查看每条指示智能体如何操作的指令。然后，编写（或在测试套件 (Beta) 中生成）输入，以根据这些细节进行测试，确保您的智能体在每个场景中都能可靠运行。例如，对于我们之前提到的体验管理子智能体，您的测试场景可能包括以下内容。

告知我关于 _____________ 体验的信息。
您是否有预订七月份的 _____________ 体验？
我需要更改预订。
我想确认预订。

要全面测试智能体，就需要大量的测试场景来涵盖各种类型的输入。一组好的测试输入具备以下属性。

数量：测试个案数量充足，足以涵盖不同的场景和边缘情况。
多样性：提供广泛的输入、上下文和变体，使您能够测试智能体在各种真实世界个案中的适应性，包括超出智能体范围的输入，或者能够挑战该工具的护栏。
质量：定义明确、精确且相关的测试个案，与智能体的目标相匹配。

测试套件 (Beta) 使用 .csv 文件保存测试场景。如果您想编写自己的测试输入，请创建自己的 .csv 文件；如果您希望 AI 生成测试输入，可以将这些测试下载为 .csv 文件，直接使用或进行编辑。

我们建议您在测试套件 (Beta) 中生成 10-20 个测试场景来开始测试，然后下载 .csv 文件并对照智能体的参数进行审查。这样可以节省您的时间，并且您可以修改这些场景或添加其他场景，以便匹配您预期的用户输入类型。随着智能体性能的提升，您可以生成更大批量的测试场景。

步骤 2：设置评估参数。

测试套件 (Beta) 生成的测试个案将包含您在 New Test（新建测试）工作流程的四个屏幕中选择的设置。提供基本测试信息（例如测试名称和被测智能体）后，您还可以包含上下文变量来模拟用户和对话上下文信息。此外，您还可以选择测试套件 (Beta) 如何评估智能体的性能和质量。建议您测试所有评估标准选项，以确保您的智能体可靠且表现良好。

单击蓝色框下方的 Next（下一步）或 Previous（上一步），查看生成智能体测试个案的四个步骤。

完成 New Test（新建测试）工作流程并单击 Generate Test Cases（生成测试个案）后，您将看到与所选条件匹配的测试列表。如果您上载了自己编写的测试输入 .csv 文件，它们也会出现在列表中。测试个案用于验证智能体如何处理输入，也称为话语。每个测试个案包含：

话语：智能体的输入查询
预期子智能体：智能体应评估的相关子智能体
预期操作：智能体应执行的相关操作
预期响应：用通俗易懂的语言表达的期望结果

测试套件 (Beta)，展示了在运行时被评估的每个测试场景的字段。

步骤 3：运行测试并评估结果。

完成 New Test（新建测试）工作流程后，单击 Run Test Suite（运行测试套件），运行测试，并检查它们的性能。您可以查看实际智能体响应的测试结果，以及在 New Test（新建测试）工作流程中您所选择的各项评估条件的测试结果。

步骤 4：验证结果。

虽然生成的测试可以处理许多场景，并告知您测试结果是通过还是失败，但重要的是要由人工来审查这些响应，以确保它们符合用户与智能体交互的方式、智能体应有的响应方式，并且不会产生任何有害或不想要的后果。在此步骤中审核输入和响应还可以发现一些容易被忽略的细微之处，例如语气不一致或上下文不符。

已完成的批量测试，显示了在测试套件 (Beta) 中通过和未通过的测试。

步骤 5：审核结果并迭代。

记住，测试是一个迭代过程。利用测试结果改进子智能体、操作和指令，直到达到可接受的准确度。测试还有助于发现智能体可以访问的过时数据以及需要调整的权限。

重新测试智能体

智能体会不断发展，您的业务也会随之变化。因此，重新测试对于保持准确性和可靠性至关重要。许多因素都会影响智能体的表现，包括智能体使用的数据变更、权限、子智能体、操作和提示的更新，以及相关产品功能和业务流程的变更。持续测试有助于智能体不断发展，能够随着业务目标的改变始终保持相关性。

总结

测试是构建可靠、高效、可信 AI 智能体的基础。遵循测试策略，可以确保您的 Agentforce 智能体可信，并能为用户带来实际帮助。

资源

小测验场景

Maria 是大型连锁酒店 Global Stay Resorts 的 Agentforce 管理员。她的任务是优化用于处理客户预约的 AI 智能体。该智能体已在 Agentforce 生成器中进行了手动测试。Maria 准备开展更全面的测试策略，以确保该策略在全面发布前具备可靠性和准确性。她尤其关注预测各种用户输入，并确保智能体的响应与公司的品牌声音和业务流程保持一致。

时间估计

主题

需要帮助？

Agentforce 资源