探索 Agentforce 护栏和信任模式
学习目标
完成本单元后,您将能够:
- 描述平台护栏。
- 描述 Agentforce 护栏。
- 解释如何自定义 Agentforce 护栏。
- 解释 Salesforce 用于构建智能体的信任模式。
Trailcast
如果您想收听本模块的录音,请使用以下播放器。听完这段录音后,记得返回每个单元,查看资源,然后完成相关评估。
用护栏保障信任
AI 发展日新月异。面对如此快速的变化,人们难免会感到焦虑。Salesforce 的产品团队和伦理和人道使用办公室 (OEHU) 深知,维护用户对我们产品的信任至关重要,因此我们正通过以下方式应对智能体式 AI 带来的风险和隐忧:
- 确定构建可信智能体所需的控制措施
- 制定测试策略
- 在产品中建立道德护栏
- 为客户提供更合适的道德指导
将这些护栏融入产品并提供清晰的道德准则,将有助于公司负责任地处理 AI 技术,确保每个人的安全和信任。
让我们深入了解一些详细信息。首先,是平台护栏,它为我们的产品提供全局控制。
平台护栏
Salesforce 包含一套全面的政策、指南和协议,旨在确保平台安全、合乎道德且合规地运行。这些护栏包括:
-
可接受的使用政策 (AUP):客户使用 Salesforce 服务的一般规则,禁止可能对平台或其用户造成损害的活动。
-
AI 可接受的使用政策 (AI AUP):客户使用 Salesforce AI 技术的具体规则,确保我们的产品得到负责任的使用。
-
模型约束政策:明确规定 AI 模型的使用规则。这些规则确保 AI 模型在一定范围内使用,以防止它们被滥用或产生意外后果。
这些控制措施构建了一个框架,以维护平台的完整性、安全性和道德标准。例如,AUP 规定,平台不得用于发送垃圾邮件或进行网络钓鱼。AI AUP 规定,未经人类最终决策,AI 不得做出任何法律决策或重大决策。模型约束政策限制了 AI 模型可以访问的数据类型,以防止数据泄露或滥用。
Agentforce 护栏
Agentforce 护栏是一套针对特定 Salesforce Cloud、产品或业务用例的规则、指南和最佳实践,旨在确保智能体遵守当地法律和标准。Agentforce 拥有道德护栏,可最大限度地减少 AI 幻觉,同时还拥有安全护栏,可防止威胁和恶意攻击,例如提示注入。

智能体类型
Salesforce 为特定云平台和常见用例提供现成的智能体。各种智能体类型都有其自身的设置和护栏,用于定义智能体的行为。例如,Agentforce 服务智能体 (ASA) 类型使用主题指令来确定何时将对话从 AI 智能体升级到人工代表。对于销售开发代表 (SDR) 智能体类型,管理员可以定义交互规则,以规定智能体何时可以开始处理销售线索,以及智能体何时和如何发送电子邮件。
主题、主题指令和操作
每个智能体都预置了一组主题和操作。
主题是与智能体需要完成的特定任务相关的操作类别。主题包含操作(即可用于完成任务的工具)和指令(即指导智能体如何做出决策)。这些主题共同定义了智能体可以处理的功能范围。Salesforce 提供了一个常见用例的标准主题库。
主题指令为智能体行为设定了准则,并提供了有效完成任务所需的上下文信息。每个主题都是一个与特定任务相关的操作类别,包含操作(工具)和指令(决策准则)。指令帮助智能体确定如何在不同的用例中使用主题中的操作。这些指令通常以“总是……”、“从不……”、“如果 x,则 y……”或“作为第一步,……”等形式表达,以确保行为清晰一致。
操作是智能体完成工作的方式。智能体拥有一个操作库,其中包含一系列它们可以执行的任务。例如,当用户请求智能体帮助撰写电子邮件时,智能体会启动一个操作来起草和完善电子邮件,并利用相关 Salesforce 数据对电子邮件进行基础培训。Salesforce 提供了一些现成的操作,这些操作称为标准操作。默认包含标准主题和操作的好处在于,智能体可以立即帮助用户完成各种常见任务。
自定义护栏
为了实现更精细的控制,可以使用智能体主题指令来创建边界、设置上下文并定义智能体行为。您可以修改标准智能体主题的指令,也可以从头开始创建自定义主题。
这些护栏由管理员控制,通常由内部领导层或关键决策者批准。这使准则具有权威性,并反映组织的价值观和合规要求。
Einstein 信任层
AI 智能体与 Einstein 信任层集成,后者是一种安全的 AI 架构,原生内置在 Salesforce 中。
信任层专为企业安全标准而设计,可让您从生成式 AI 中获益,而不会损害您的客户数据。它还能让您使用可信数据来改进生成式 AI 响应。
-
数据落地训练:信任层利用可信的公司数据对生成性提示进行落地训练和增强。
-
零数据留存:您的数据绝不会被第三方 LLM 提供商留存。
-
毒性检测:潜在有害的 LLM 响应被检测和标记。
-
AI 监控:AI 互动会被记录在事件日志中,让您了解每次用户交互的结果。
智能体信任模式
我们在所有产品中都实施了若干关键的信任模式和标准产品设计,以提高安全性。以下为几个示例。
信任模式 |
示例 |
|---|---|
减少幻觉。 |
我们使用主题分类将用户输入映射到特定主题。这会降低智能体生成不准确或不相关信息的风险。 |
限制智能体生成电子邮件的频率。 |
我们限制了智能体生成电子邮件的频率,以避免对用户造成信息过载,并保持沟通的有效性。 |
尊重用户隐私。 |
我们在 CRM 软件中加入了退出功能,允许用户控制接收来自 AI 智能体的通信的频率。 |
从设计阶段开始确保透明度。 |
我们确保以直接、透明的方式披露 AI 生成的内容。 |
促进 AI 与人类之间的顺畅交接。 |
我们致力于促进从智能体到人工的平稳过渡。例如,在 AI 生成的电子邮件中抄送销售经理,或提供仪表板便于人工监督。 |
实施最佳实践
在组织中实施 Agentforce 护栏时,请遵循以下最佳实践。
最佳实践 |
示例 |
|---|---|
了解政策。 |
创建一份适用于您所在行业、地区和用例的政策清单。利用这些政策设定智能体的权限范围。这将有助于确定可以将哪些主题分配给您的智能体。 |
实施强有力的安全措施。 |
限制智能体的访问权限,使其仅限于完成分配的任务所需的权限。确保智能体遵守数据保护和监管要求。使用主题指令来设置智能体必须遵守的规则。 |
方便人工监督。 |
制定明确的准则,规定如何以及何时交接给人工代表。使用主题指令来阐述这些准则。 |
监控和审计。 |
完成初始测试后,持续监控有助于确保智能体按设计运行。使用 Einstein 信任层的审计跟踪功能,深入了解 AI 操作和结果。 |
尊重用户隐私。 |
选择退出功能,允许用户控制通信频率并保护其隐私。 |
定期进行评估。 |
定期进行偏差、可解释性和稳健性评估,以监控持续的安全性和可靠性。 |