Skip to main content
Register now for TDX! Join the must-attend event to experience what’s next and learn how to build it.

使用五步测试策略优化智能体

学习目标

完成本单元后,您将能够:

  • 解释为什么在开始测试智能体之前制定测试策略很重要。
  • 描述智能体测试的五步策略。

为什么要遵循测试策略?

智能体测试是发布可靠、值得信赖的智能体的基础。Agentforce Studio 工具提供了多种方法来确保您的智能体能够正确处理您为其规划的任务。正如我们在上一单元中所了解到的,全面测试用户与智能体交互的多种方式可能具有挑战性。由于涉及的变量众多,因此在开始之前制定测试策略是明智之举。在本单元中,您将了解如何在 Agentforce 生成器中优化智能体之后进行测试。

测试智能体的五步策略

AI 智能体测试循环是一个循序渐进的策略,用于微调您的智能体并使其达到适合用户使用的状态。您可以创建测试场景、选择评估指标并运行自动化测试。然后,您可以验证结果,并利用反馈进一步优化智能体的各个部分,以提高其准确性和性能。

Agentforce 五步策略,用于测试与以下步骤描述相对应的智能体。

步骤 1:确定测试场景并创建测试数据。

在对话预览面板中手动测试各种用户输入并根据它们的响应修改智能体后,您就可以在测试中心对智能体进行批量测试了。批量测试的第一步是确定要测试的输入类型。您可以使用自然语言编写并上传自己的测试场景,也可以让测试中心利用 AI,根据智能体的元数据以及您有权访问的数据生成测试个案。无论您是自己编写测试场景还是让 AI 生成,了解优秀测试场景的构成要素都非常重要。让我们一起来看看。

在规划智能体时,您定义了它的范围和功能。例如,我们的预约智能体包含以下主题和操作,这些主题和操作定义了智能体将处理的与预约相关的一些工作和任务。

  • 预约管理主题涵盖确认预约和行程、创建新预约以及修改现有预约等任务。
  • 创建或更新预约操作会在不存在预约时创建新预约。或者,如果对现有预约进行更改,则会更新客人的记录。

要创建好的测试场景,请在 Agentforce 生成器中查看您的智能体主题,包括 Classification Description(分类描述)和 Scope(范围)字段,它们描述了智能体应操作的功能和参数范围。同时,查看每条指示智能体如何操作的指令。然后,编写(或在测试中心中生成)输入,以根据这些细节进行测试,确保您的智能体在每个场景中都能可靠运行。例如,对于我们之前提到的预约管理主题,您的测试场景可能包括:

  • 我要预约。
  • 请问七月份有空房吗?
  • 我需要更改预约。
  • 我想确认预约。

要全面测试智能体,就需要大量的测试场景来涵盖各种类型的输入。一组好的测试输入具备以下属性。

  • 数量:测试个案数量充足,足以涵盖不同的场景和边缘情况。
  • 多样性:提供广泛的输入、上下文和变体,使您能够测试智能体在各种真实世界个案中的适应性,包括超出智能体范围的输入,或者能够挑战该工具的护栏。
  • 质量:定义明确、精确且相关的测试个案,与智能体的目标相匹配。

测试中心使用 .csv 文件保存测试场景。如果您想编写自己的测试输入,请创建自己的 .csv 文件;如果您希望 AI 生成测试输入,可以下载并编辑 .csv 文件中的测试。视频在 Agentforce 测试中心测试 AI 智能体演示了 Agentforce 测试中心的工作原理。

Note

我们建议您在测试中心生成 10-20 个测试场景来开始测试,然后下载 .csv 文件并对照智能体的参数进行审查。这样可以节省您的时间,并且您可以修改这些场景或添加其他场景,以便匹配您预期的用户输入类型。随着智能体性能的提升,您可以生成更大批量的测试场景。

步骤 2:设置评估参数。

测试中心生成的测试个案将包含您在 New Test(新建测试)工作流程的四个屏幕中选择的设置。提供基本测试信息(例如测试名称和被测智能体)后,您还可以包含上下文变量来模拟用户和对话上下文信息。此外,您还可以选择测试中心如何评估智能体的性能和质量。建议您测试所有评估标准选项,以确保您的智能体可靠且表现良好。

单击蓝色框下方的 Next(下一步)Previous(上一步),查看生成智能体测试个案的四个步骤。

完成 New Test(新建测试)工作流程并单击 Generate Test Cases(生成测试个案)后,您将看到与所选条件匹配的测试列表。如果您上载了自己编写的测试输入 .csv 文件,它们也会出现在列表中。测试个案用于验证智能体如何处理输入,也称为话语。每个测试个案包含:

  • 话语:智能体的输入查询
  • 预期主题:智能体应评估的相关主题
  • 预期操作:智能体应执行的相关操作
  • 预期响应:用通俗易懂的语言表达的期望结果

测试中心,展示了在运行时被评估的每个测试场景的字段。

步骤 3:运行测试并评估结果。

完成 New Test(新建测试)工作流程后,单击 Run Test Suite(运行测试套件),运行测试,并检查它们的性能。在 The Actual Topic(实际主题)、Topic Test Result(主题测试结果)、Actual Actions(实际操作)、Action Test Result(操作测试结果)和 Actual Response(实际响应)字段查看测试结果。

步骤 4:验证结果。

虽然生成的测试可以处理许多场景,但重要的是要由人工来审查这些响应,以确保它们符合预期,并且不会产生任何有害或不想要的后果。在此步骤中审核输入和响应还可以发现一些容易被忽略的细微之处,例如语气不一致或上下文不符。

已完成的批量测试,显示了在测试中心通过和未通过的测试。

步骤 5:审核结果并迭代。

记住,测试是一个迭代过程。利用测试结果改进主题、操作和指令,直到达到可接受的准确度。测试还有助于发现智能体可以访问的过时数据以及需要调整的权限。

重新测试智能体

智能体会不断发展,您的业务也会随之变化。因此,重新测试对于保持准确性和可靠性至关重要。许多因素都会影响智能体的表现,包括智能体使用的数据变更、权限、主题、操作和提示的更新,以及相关产品功能和业务流程的变更。持续测试有助于智能体不断发展,能够随着业务目标的改变始终保持相关性。

总结

测试是构建可靠、高效、可信 AI 智能体的基础。遵循测试策略,可以确保您的 Agentforce 智能体可信,并能为用户带来实际帮助。

小测验场景

Maria 是大型连锁酒店 Global Stay Resorts 的 Agentforce 管理员。她的任务是优化用于处理客户预约的 AI 智能体。该智能体已在 Agentforce 生成器中进行了手动测试。Maria 准备开展更全面的测试策略,以确保该策略在全面发布前具备可靠性和准确性。她尤其关注预测各种用户输入,并确保智能体的响应与公司的品牌声音和业务流程保持一致。

资源

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈