Skip to main content

促进负责任且合乎道德的智能体

学习目标

完成本单元后,您将能够:

  • 实施合乎道德的红队测试和测试策略。
  • 制定组织的指导原则和标准。

Trailcast

如果您想收听本模块的录音,请使用以下播放器。听完这段录音后,记得返回每个单元,查看资源,然后完成相关评估。

负责任的智能体的指导原则

许多采用 AI 的组织发现,在制定 AI 策略之前,建立负责任的 AI 原则很有帮助。通过一套 AI 原则,企业可以明确他们对 AI 的立场,并考虑该技术对员工、客户和社会的影响。Salesforce 准则可以帮助您根据业务需求和用例制定相应的准则。请考虑自身用例的安全性。您所在的行业是否存在任何可能包含行业特定安全要求的法律、法规或规章?

要开始建立自己的指导原则,让我们回顾一下 Salesforce 开发可信 AI 的指导原则。

  • 准确性
  • 安全性
  • 诚信
  • 赋能
  • 可持续发展

红队测试和测试策略

红队是一群专家,通常是安全或 AI 道德专家,他们渗透到组织的系统中,查找并修复导致意外输出或结果的安全或其他问题。

红队测试可以定义为“用于探究 AI 系统和产品,以识别有害功能、输出或基础设施威胁的结构化流程”。

三只手拿着放大镜聚焦在一个三角形内带有感叹号的警告标志上。

测试是确保安全和防止意外后果的关键环节。进行测试时,请考虑以下几点。

  • 了解您想测试哪些危害。设定测试目标和目的,并使其与您的业务目标和用例保持一致。
  • 组建一支团队进行测试。您可以利用精通对抗性思维、具备攻击策略设计经验的内部和外部专家来进行测试。
  • 围绕 AI 和智能体,定期开展测试,确保您能跟上不断发展的技术和对抗性思维。

以下是 Salesforce 的红队测试方法。Salesforce 采用手动和自动化红队测试相结合的方法,以提升 AI 产品的安全性。我们会测试滥用行为、蓄意完整性攻击(例如提示注入)以及意外误用。我们会对 AI 进行红队测试,以检测毒性、偏见和安全性问题,从而确保在发生恶意使用或无害误用的情况下,系统仍然是安全的。

测试类型

描述

手动

在手动测试中,测试人员运用他们的创造力、经验和专业知识,设计出自动化系统可能忽略的复杂攻击策略。此外,测试人员还会根据具体的环境、目标和目的调整测试方法,使攻击更加贴近实际、更具针对性。

自动

自动化测试用于增强而非取代人工驱动的测试和评估。这类测试利用脚本、算法和软件工具快速模拟多种攻击或威胁。另外,还量化风险,探索系统中的风险面。

我们与内部和外部专家合作进行渗透测试,解决智能体特有的风险和用例。

要全面了解,请参阅负责任的红队测试博客

模型标杆

Salesforce 会将其 AI 模型与行业标准进行比较,以确保其性能达到最高水平。为进一步实现该目标,我们还发布了 首批 LLM CRM 基准测试。这些基准测试包含了一些重要的指标,有助于我们了解 AI 系统的性能,并为我们的客户提供参考。

合乎道德的测试的未来

Salesforce 的测试、评估和研究团队致力于确保 AI 产品的可靠性和安全性。我们通过严格的测试流程、积极主动的红队测试和全面的基准测试,努力保持 AI 完整性的最高标准。我们倡导持续改进和创新文化,致力于提供客户信赖的 AI 解决方案。

AI 可接受的使用政策

Salesforce 发布了 AI 可接受的使用政策 (AI AUP),以符合行业标准和合作伙伴的要求,并保护我们的客户。如需了解更多内容,请参阅 AI 可接受的使用政策

Salesforce AI AUP 是我们的核心业务战略,因此在发布前,我们特意花时间咨询了我们的合乎道德的使用咨询委员会小组、合作伙伴、行业领袖和开发人员。这是为了确保负责任的创新,并在产品开发过程中保护信赖 Salesforce 产品的用户。Salesforce AI AUP 只是一个起点,重点是在 Salesforce 产品中使用 AI。您可以考虑制定自己的 AI 规则或原则,以确保贵公司以尊重公司道德价值观的方式使用 AI。

智能体安全标准

请考虑采取这些安全措施,为贵组织的访问控制、数据保护和智能体的负责任使用建立安全标准。

类别

类型

推荐

访问控制

严格访问控制

实施适当的访问控制,确保只有出于业务需要而必须知晓的人员才能与生成式 AI 模型和服务进行交互。

设计智能体时,应全面明确智能体的总体范围和潜在操作,确定合适的执行上下文。对于关键操作,应考虑在单个服务用户上下文中运行智能体,以实施精细访问控制,并最大限度地降低潜在的安全风险。

监控与审计

创建警报,并定期监控和审计对生成式 AI 模型和服务的访问,以检测和防止未经授权使用。

数据保护

完整性控制

对内部数据和客户数据都添加完整性控制。遵守应用程序安全、备份和还原以及基本配置的适当规则。

负责任的使用

客户数据处理

采取措施正确处理客户个人数据。确保仅出于合法原因收集和使用这些数据,并适当通知数据主体征求同意。

客户透明度

确保服务不会在客户不知情的情况下进行推理。

内容管理

对生成式 AI 服务提供内容管理筛选功能,并在可用时默认启用该功能。

合乎道德的使用

制定生成式 AI 的合乎道德的使用准则,确保以尊重隐私和安全的方式使用。

从理论到实践

在本模块中,我们探讨了可信智能体式 AI 的诸多基础知识,以及 Salesforce 如何开发可信智能体式 AI。现在,您已了解与智能体式 AI 相关的主要风险,例如意外行为、偏见和数据泄露。您还学习了确保 AI 智能体在安全和合乎道德的参数范围内运行的具体护栏和信任模式。您也理解了在组织内部推广负责任的 AI 实践的重要性,包括开展合乎道德的红队测试、测试以及制定 AI 可接受的使用政策。

掌握了这些知识,我们就可以着手创建有效、可信和负责任的 AI 智能体!

资源

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈