Skip to main content

考虑数据来源

学习目标

完成本单元后,您将能够:

  • 讨论数据的上下文。
  • 确定要询问的有关数据的问题。
  • 解释数据中包含或不包含的人员会影响分析的原因。

消除数据中的偏见

正如试图分析有缺陷的数据会产生有缺陷的结果一样,试图可视化有缺陷的数据也会产生误导性和欺骗性的仪表板和图表。 

如果考虑不造成伤害,请检查您的数据是否有偏见,是否是种族主义或压迫性数据收集系统的产物。如果可视化相关的数据有偏见,可视化将放大这种偏见以及偏见产生的危害。

如何消除数据分析中的偏见?一开始就将公平的视角引入到项目中。提问:

  • 谁是参与创建分析的团队成员?
  • 团队或组织是否多样化?
  • 多元化、公平和包容 (DEI) 问题是否至关重要?
  • 团队/组织是否熟悉这些问题?

仔细检查研究的设计方式,如何收集数据,以及如何进行数据分析并传达结果。这不是一个神奇的解决方案,但这种更广泛的视角有助于消除研究、分析和数据交流中的偏见。

识别数据中的偏见

用于处理数据的可靠框架可以帮助数据分析师、沟通人员和研究人员识别和处理可能存在偏见的数据。考虑以下问题。

  • 此数据如何产生
  • 为何收集此数据?
  • 此数据中包含哪些人的声音、生活和体验,不包含哪些人?
  • 这些数据可以按种族、性别、民族等进行多少分类
  • 数据在人口统计学上是否具有代表性
  • 谁将受益,谁可能会因收集或发布这些数据而受到伤害

数据,特别是收集的关于人的数据,不是中立或客观的。它反映了研究人员或数据收集者有意识和无意识的偏见和观点。这一点很重要,因为单独应用 DEI 视角无法修复有偏见的数据或分析。作为研究人员、分析师和数据沟通人员,必须考虑数据中存在差异的根本原因,并在考虑这些信息的情况下开展工作。

优先考虑包容性

请务必确认谁包含在您的数据和可视化中,谁不包含在其中。作为一名研究人员,您能否帮助您的组织开展更具包容性的调查?仅仅因为获取有关某些群体的数据可能更难,并不意味着您不应该尝试更好地了解他们的生活。

数据未被收集或显示的群体通常反映了社会认为谁最不重要。相反,您忽略的内容会揭示隐藏的社会偏见和冷漠。制图学向我们展示了一个典型的例子:美国地图经常不显示美国领土,有效地抹去了国会中没有代表且主要是非白人的整个群体。 

许多关于种族的图表显示黑人、西班牙裔/拉丁裔人和白人,但没有其他种族或族裔群体——通常是因为数据限制,如样本量小或根本没有数据。在考虑缺失的群体以及代表谁时,要意识到使用包容性数据的重要性。 

提高数据包容性

为确保您的数据尽可能具有包容性,请以同理心和敏感性对待所有人,并遵循以下准则。

避免集中分组

如果样本量较小,有时会将群体混为一谈,以使分析更加方便。例如,显示美国各地种族和民族的地图可能包括一组“其他人种”,但是没有解释哪些群体被排除在外。这样做会对被混为一谈的社区产生有害影响。 

对已经代表性不足的群体使用小样本量是特权阶层的选择,而不是小群体固有的限制。然而,事实上,由于时间或预算有限,小样本量有时是不可避免的。但是,通过承认聚合可能掩盖某些群体内的差异,或者当小样本量无法客观准确地进行统计和科学分析时,您可以做得更好。作为数据生成者(设计和发布调查的人员),您还应该寻求扩大数据中收集的群组数量。数据研究人员和生成者都应该努力更好地收集反映所有人生活状况的数据,而不是让已经被边缘化的社区承受负担。 

包括非二元性别类别

有时,某些群体完全被排除在数据收集之外。例如,许多主要的联邦调查在询问性别时不提供非二元或跨性别选项。这是一个机会,您可以向读者明确您的数据中包含和不包含哪些信息。

选择具有可疑性别响应选项的性别下拉菜单:女性、男性、不适用、未知和纳税主体。

指出非二元类别的缺失可以促使下一个数据研究人员和沟通人员对他们未来的调查和可视化进行必要的更改。它需要数据生产者、使用者和沟通人员的整个生态系统协同工作,以实现包容性目标。

查找“其他”的替代项

了解在细分组时使用包容性语言的重要性非常重要。分析和传达其他的正确方法是什么?您能用更具包容性的语言来谈论这个群体吗?首先,您必须了解类别衡量的内容。这可能包括广泛的种族、民族、宗教、其他特征及其交叉点。尽管这个选项对那些不认为自己属于通常类别的人很有用,但您应该质疑将具有如此不同特征和生活经历的人分组在一起是否真的有意义。 

以下是其他的六种可能的替代方案:

  • 其他种族
  • 其他分组
  • 所有其他自我描述
  • 被认定为其他或多个种族的人
  • 未列出的身份
  • 调查中未列出的身份

其中一些术语更冗长,可能不适合表格或条形图的条形栏下。但它们更具包容性,避免了我们已经讨论过的一些问题。请务必注意,这些标签可能不是调查中受访者可用的确切选项,因为没有其他选项可选而选择了“其他”。 

如果您有这种顾虑,可以包含一个简单的注释或脚注,以确认从原始数据到结果呈现的变化。尽管如此,这些替代方案在一般意义上仍然是真实和准确的,因此您可以在图形、表格或文本中添加单独的注释或脚注,以使读者清楚地了解更改。

如果您没有包括所有群组,请提供说明

包含种族、性别、年龄、教育和收入类别的图表,显示基于选择的就业百分比。图表还有一个消息框,描述了样本量限制如何不允许可靠的估计,内容如下:没有高中学历的美国原住民男性的样本量太小而不可靠。

如果收集了有关特定组的数据,但该组未显示在图表中或未包含在分析中,请通过注意原始数据集中包含了哪些组来公开您的方法。或者,可以注意数据研究中的差异,这样不会误导读者。

资源

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈