消除数据和算法中的偏见

学习目标

完成本单元后，您将能够：

识别您的数据集中被排除或占比过高的因素。
说明坚持事前剖析减轻交互偏见的好处。
制定计划，确保结果中没有新的偏见。

管理偏见风险

我们讨论了运用 AI 时需要考虑的不同类型偏见。现在到了最难的部分：如何防止或管理那些偏见制造的风险。您不可能神奇地让训练数据中的偏见消失。消除排斥既是一个社会问题，也是一个技术问题：您可以以团队的形式采取预防措施，除了修改数据，还要考虑如何计划和执行产品。

开展事前剖析

我们在第一单元中讨论过，负责任地创造产品从建设崇尚道德的文化开始。一种做法是将事前剖析融入您的工作流程。

事前剖析是事后剖析的反面，即创造机会在发生之前捕捉到“出错的地方”。团队成员往往在项目的计划阶段会犹豫要不要分享保留意见。在 AI 这样的敏感领域，至关重要的一点是您和团队要坦诚地说出你们可能会有的所有疑虑并且愿意面对可能令人不快的局面。召开这样的会议可以克制在一开始对项目一腔热情的时候豁出去的欲望，设定慎重且现实的预期。

识别您的数据集中被排除或占比过高的因素

可以考虑您的数据集反映的深层次社会和文化因素。我们在上一个单元详细介绍过，在数据集层面任何偏见都可能会影响 AI 的推荐系统，从而导致某个群体占比过高或过低。

从技术的角度看，下面是处理数据中的偏见的两种方法。这些方法绝对不是全面的。

内容：适用于大多数的统计模式在少数群体中可能是无效的。

方法：考虑打造针对不同群体的不同算法，而不是一刀切。

内容：数据集排除了一部分人，而这种排除对您的用户有影响。语境和文化很重要，但是可能无法在数据中看到效果。

方法：寻找研究者所说的未知的未知，即当一个模型对某个实际上错误的预测高度自信的时候，发生的错误。未知的未知与已知的未知相对，后者是模型以较低的置信水平作出的不正确的预测。与模型生成内容类似，它还可以生成与您的要求完全不相符的信息。

经常评估您的训练数据

我们前面提到过，开发一个 AI 系统从训练数据层面开始。您应该在流程尽早的时候严谨地对待数据质量问题。务必要处理 CRM Analytics 或其他数据准备工具中的极端值、重复值、异常值和冗余值。

发布您的模型之前，一定要开展发布前试运行，这样您的系统不会作出带偏见的预测或判断，从而影响现实世界中的人们。一定要经过测试，确保不会造成伤害。您希望能够证明产品可以在不同的社区使用，这样发布之后不会出现任何意外。

发布模型后，建立一套制度，定期检查算法学习的数据，以及系统作出的推荐。把您的数据想象成只有半条命——不可能无限期地为每个人服务。在技术方面，进入系统的数据越多，算法就学得越多。这可以造成系统识别和匹配那些开发产品的人原先没有预见到或不想要的模式。

在社会方面，文化价值观会随着时间改变。算法的输出可能不再适合它所服务的社区的价值观体系。有两种方法可以应对这些挑战，一种是付费的社区评审流程，以纠正疏忽，另一种是在您的产品中为选择退出或纠正关于他们本人的数据的个人和用户建立一些机制。社区评审流程应当包含社区中可能受您在开发的算法系统影响的人群。您还应该与那些将要实施、管理和使用这个系统的人对话，以实现他们组织的目标。请学习 UX Research Basics（UX 研究基础），进一步了解您可以用来开展社区评审流程以及开展用户研究的方法，以了解您的工具将在哪些环境中使用。

结论

AI 可以是一股向善的力量，有可能发现人类无法发现的肿瘤以及在家人发现之前发现阿尔兹海默症或者保护本土语言。在本模块中，我们展示了 AI 系统的强大，以及它们的不透明。如果我们想让 AI 对于社会来说利大于弊，那我们必须承认其中的风险并且采取行动确保负责任地设计、开发和使用 AI 系统。

作为技术人员，即使我们对于自己的方针是严谨、慎重的，一路上可能还是会有意外。我们无法始终预测到数据集、模型及其文化背景之间的交互。数据集往往包含我们意识不到的偏见，我们有责任评估和评价训练数据以及模型的预测，以确保它们不会制造任何破坏性的结果。

开发合乎道德的 AI 系统是一个社会技术过程。不仅要从技术实施的角度来看待它，还要透过跨团队的开发方式以及将使用它的社会背景来看待它。而且，还要评估谁参与这个过程，性别、种族、民族和年龄的构成如何？打造 AI 产品的人以及这些系统产生的偏见是互相关联的。

为了实现安全、造福社会的 AI，我们必须牢记它应该以人为本。AI 是一种工具，由我们来选择如何使用它。不论某个人是什么角色，他们的一个小决定都有可能会造成严重、持久的后果。在 Salesforce，我们坚信我们能够做好并且行善。您可以在不伤害他人的前提下盈利，而且事实上在这个过程中产生积极的影响。

资源

Trailhead：道德数据使用最佳实践：快速了解
博客：如何在 AI 中植入道德伦理（第 2 部分）
博客：您的数据准备好迎接 AI 了吗？
研究论文：Path-Specific Counterfactual Fairness（特定路径的反事实公平）

时间估计

主题

需要帮助？

Einstein 资源