Skip to main content

创建负责任的生成式 AI

学习目标

完成本单元后,您将能够:

  • 列出负责任开发生成式 AI 的五个原则。
  • 识别 Salesforce 产品中可信赖的生成式 AI 功能。
  • 描述识别伦理风险和部署保护措施的最佳实践。

生成式 AI,一种新型人工智能

近来,大多数对 AI 感兴趣的人都在谈论预测型 AI。这种人工智能类型专注于查看现有数据集,并根据手头的信息对真实情况做出有限的预测。现在,一名新的选手闪亮登场——一种新兴的生成式 AI,它并非预测型的。主要区别在哪里呢?预测型 AI 分析趋势,而生成式 AI 则创建新的内容。

生成式 AI (gen AI) 拥有一系列出色的功能,包括与机器人进行实时对话,有效模拟与现场支持人员的交流,以及面向营销人员、程序员和创意先锋的应用程序等。此外,生成式 AI 的文化时刻吸引用户蜂拥而至,希望了解其功能。因此我们大多数人可能会在日常生活中遇到此类算法,它们发挥的作用可能越来越重要。

所有新兴技术都存在未知因素。无论是有意滥用还是偶然偏差,生成式 AI 带来了充分利用这项技术必须理解并解决的风险。

了解风险

在 Salesforce,我们致力于以负责任和可信赖的方式设计、开发和传播技术。为此,我们设想了所构建内容的预期和非预期结果。

让我们回顾一下生成式 AI 的一些潜在风险。

准确性

生成式 AI 模型在预测方面表现出色。生成式 AI 模型通过收集大量同类实例来创建新内容。但是,虽然模型可能能够以某位著名作家的风格创建新句子,但无法知道这句话在事实上是否真实。当用户假设 AI 的预测是得到验证的事实时,这可能会成为一个问题。这既是一个特点,也是一个缺陷。它赋予了模型在最初阶段激发想象力的创造能力。但人们很容易将看似正确的东西误认为是与现实世界相符。 

偏差和毒性

因为人类互动可能会涉及到一定程度的毒性,即有害行为,例如使用侮辱性语言或表现出偏执,当 AI 不经过调整以识别和过滤这类行为时,它会复制这种毒性。事实上,它甚至可能放大所发现的偏差,因为进行预测通常涉及排除异常数据。对于 AI 来说,这可能包括少数群体。 

隐私和安全

生成式 AI 引人注目的两大特点是复制人类行为的能力和大规模复制的速度。这些特点带来了让人惊喜的各种可能性。但也有一个缺点:很容易利用这项技术迅速造成巨大的破坏。这些模型有泄漏其训练数据的倾向,暴露了其中所代表的人员的私人信息。而且生成式 AI 甚至可以创建逼真的钓鱼电子邮件或复制语音,从而绕过安全措施。 

破坏性

由于 AI 功能强大,即使按预期使用,它也会对社会构成风险。经济动荡、工作和责任的变化以及模型运行所需的强大计算能力带来的可持续性问题,都对我们共享的空间产生了影响。 

信任:底线

信任是 Salesforce 的首要价值观,也是指引我们开发和部署生成式 AI 应用程序的北极星。为了指导这项工作,我们制定了一套负责任开发生成式 AI 的原则,并帮助他人充分利用这项技术的潜力,同时防范其中的陷阱。

准确性:生成式 AI 和其他模型一样,根据其训练数据进行预测。这意味着它需要良好的数据才能提供准确的结果。同时,人们需要意识到 AI 的输出可能存在不准确或不确定的地方。

安全性:通过偏差、可解释性和健壮性评估以及针对负面结果的审慎压力测试,我们帮助客户免受毒性和误导性数据等危险的影响。我们还保护训练数据中存在的任何个人身份信息 (PII) 的私密性。此外,我们制定安全保护措施,以防进一步的损害(例如将代码发布到 Sandbox 而不是自动推送到生产环境)。

诚信:您的数据并非我们的产品。在收集数据以训练和评估模型时,我们需要尊重数据来源,并确保我们有权使用数据(例如开源或用户提供的数据)。同时,在用户使用或与 AI 交流时务必要以水印或免责声明的方式告知实情,以免他们将经过良好调试的聊天机器人误认为是人工客服人员。

赋权:在某些情况下,实现流程的完全自动化是最佳选择。但在其他情况下,AI 应该发挥辅助人类的作用,或者需要人做出判断。我们的目标是通过开发可增强或简化人类工作的 AI 来提升人类的能力,并为客户提供工具和资源来了解其所创建内容的真实性。 

可持续性:就 AI 模型而言,更大并不总是意味着更好:在某些情况下,经过良好训练的较小模型胜过未经过充分训练的较大模型。在实现强大算法和长期可持续之间找到适度的平衡是将生成式 AI 引入我们共同未来的重要环节。

AI 规范行动指南

那么,如何履行这些承诺呢?以下是 Salesforce 正在采取的一些行动。

Einstein 信任层我们把 Einstein 信任层整合至 Salesforce Platform,通过无缝集成至最终用户体验的数据和隐私控制,提高 Salesforce 的生成式 AI 安全性。如需了解更多相关信息,请查看帮助中的 Einstein 信任层

产品设计决策:用户应该能够相信,当他们使用 AI 时,能够得到可靠的见解和帮助,使他们能够满足自身的需求,而不会面临分享不准确或误导性信息的风险。 

我们将责任融入产品中。从按钮的颜色到输出限制,我们对方方面面进行了审查,确保我们正在尽一切努力保护客户免受风险,同时又不牺牲其保持竞争力所依赖的能力。 

留心摩擦:用户应始终具备为其用例做出最佳决策所需的信息。我们通过不具侵入性但谨慎应用的摩擦帮助用户保持领先地位。在这种情况下,“摩擦”表示打断完成任务的常规过程,以激励反思。例如,应用程序内提供指导弹窗,以教导用户偏差相关知识,或者标记检测到的毒性内容,以及要求客户的服务客服人员在发送之前仔细审查回答的内容。

Red Teaming(红队测试):我们执行红队测试,该过程涉及有意识地寻找系统中的漏洞,通过预测和测试用户可能使用和滥用系统的方式,来确保我们的生成式 AI 产品具备承受压力的能力。前往 Trailhead 中的 Einstein 信任层了解更多关于 Salesforce 如何将信任融入产品的信息。

我们测试产品的一种方法是执行预防性的“提示注入攻击”,通过制作专门设计的提示,使 AI 模型忽略先前建立的指令或边界。预测像这样的实际网络安全威胁,对于完善模型以抵御实际攻击至关重要。

可接受的使用政策:由于 AI 涉及到众多不同的应用领域,我们为 AI 产品制定了具体的政策。因此,我们能够透明地制定可接受使用指南,以确保我们赢得客户和最终用户的信任。这种方法并不新鲜:Salesforce 已经制定了旨在保护用户的 AI 政策,包括禁用面部识别功能和伪装成人类的机器人。 

目前,我们正在根据生成式 AI 的发展更新已有的 AI 指南,从而让客户继续信赖我们的技术。根据更新后的规则,任何人都可以了解其用例是否得到支持,因为我们提供了更先进的 AI 产品和功能。如需了解更多内容,请查阅可接受的使用政策。 

生成式 AI 改变了人与企业的协作方式。虽然我们没有提供所有答案,但我们给出了一些最佳实践。

协作

公司内部和公私机构之间的跨职能合作伙伴关系对于推动负责任的开发至关重要。我们的团队积极参与外部委员会和各种倡议,如国家人工智能咨询委员会 (NAIAC) NIST 风险管理框架,为努力创建全行业范围内更值得信赖的生成式 AI 做出贡献。

纳入多元化观点

在整个产品生命周期中,多元化的观点提供了广泛的见解,能够有效地预测风险并开发解决方案。结果扫描等练习有助于确保产品在关于生成式 AI 当前状态和未来发展方向的对话中纳入了重要的相关意见。

即使是最先进的 AI 也无法预测这项技术将如何影响未来的工作、商业和其他方面。但通过合作,我们可以确保以人为本的价值观建立起信任的基石,从而建立一个更高效、可扩展的未来。

资源

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈