Skip to main content
Dreamforce 将于 9 月 17 日至 19 日来到旧金山。立即注册,使用代码 DF24TRAIL20 节省 20%

有信心地看图

学习目标

完成本单元后,您将能够:

  • 批判性地评估数据的解释。
  • 使用检查列表来评估图表的可信度和准确性。
备注

本单元中的图像经 Alberto Cairo 许可使用,取自其作品《数据可视化陷阱》

谨慎解释的重要性

即使是使用准确的源数据和适当的设计选项创建的图表也可能会被误解。关键是要批判性地思考,并花时间仔细评估您在图表和其他数据可视化中看到的数据的解释。

看图表时,花点时间思考是否缺少任何关键信息。如果您能够深入研究源数据,有时您会发现图表中未体现出的相关信息。隐藏或缺失的信息可能会扭曲您对呈现给您的数据的看法,无论这种遗漏是否是故意的。 

思考所做的比较

“视觉展示如果要帮助思考,就应该展示比较。”–Edward Tufte,美丽的证据

正如您在第一单元中所学到的,图表可以帮助您做出更好的决策。它们可以帮助您进行明智的比较并回答正确的问题,从而帮助您做出正确的决策。除了确定图表数据的可信度之外,考虑图表的上下文并理解图表中的比较也很重要。即使图表的数据是可信的,如果您不停下来确保图表首先是针对正确的问题,您也可能会得出错误的结论。 

备注

提出好问题是数据素养的重要组成部分!要了解什么是好问题并进一步磨练您的技能,请完成数据素养基础模块。

考虑大局

另一个需要注意的常见陷阱是图表无法显示场景中的完整上下文。 

例如,在《数据可视化陷阱》一书中,Alberto Cairo 探讨了以下条形图。该条形图想要得出的结论是失业率正在上升。 

显示 7 月至 8 月失业率上升的条形图。

然而,如果您在全年甚至多年的背景下查看这两个数据点,就会出现不同的模式。尽管 2017 年 7 月至 2017 年 8 月期间失业率确实有所上升,但失业率实际上随着时间的推移而下降,并在不同月份之间出现波动。这讲述了一个截然不同的故事。

多年的失业率,显示 2009 年至 2018 年总体呈下降趋势。

考虑误差幅度和不确定性 

没有什么是完美的,数据也不例外。有时您可能会对选举结果感到惊讶,因为民意调查显示未获胜的候选人处于领先。

选举期间的民意调查,在上图中显示共和党候选人领先 3 个百分点,而最终民主党候选人以 0.2 个百分点的优势获胜

选举期间的民意调查,在上图中显示共和党候选人领先 3 个百分点,而最终民主党候选人以 0.2 个百分点的优势获胜

在解释民意调查时,请注意误差幅度或置信区间。在此示例中,误差幅度为 +/- 3 个百分点。这是什么意思呢?

误差幅度并不是在描述研究中的“错误”,而是告诉我们估值中存在多少不确定性。通常估值是范围的中间点。想象一下尝试测量一只不停扭动的快乐小狗的长度。尝试测量的次数越多,您就越有信心知道它实际有多长。不过,您只能肯定地说,这只贵宾犬大约有 28 英寸长(误差一英寸)。 

在此示例中,您可能会说:“根据我们的收集和测量方法,我们有 95% 的信心认为我们为 Rick Saccone 尝试估计的值在 42 到 48 之间,或者比 45 大或小 3 个点,并且 Conor Lamb 的得分在 39 到 45 之间,或者比 42 大或小 3 个点。”

显示了误差幅度的民意调查结果。

当统计学家描述误差幅度时,他们会说处于特定的置信水平或不确定性水平。统计数据让您相信,如果使用相同的方法多次进行该研究,95% 的时间您的估值都会落在误差幅度内。在此示例中,表示点估计值周围 +/- 3 点置信区间的梯度区域重叠,因此,我们不能从这些结果中得出任何一位候选人会获胜的结论。此外,如果我们考虑到民调中 13% 尚未做出决定的选民,那么任何一位候选人赢得竞选都不足为奇。

如果您查看民意调查并考虑了误差幅度,您会发现最终结果是在误差幅度内的。误差幅度就是数据集中可能存在的不确定性程度。 

例如,一项民意调查可能表明 60% 的受访者更喜欢品牌 A 而不是品牌 B。如果误差幅度为 2%,则更喜欢品牌 A 的受访者的实际百分比在 58-62% 范围内。 

许多来源会引用他们为数据集计算的误差幅度。如果没有明确说明误差幅度,请记住始终需要考虑一定程度的不确定性。 

要更深入地了解误差幅度和不确定性,请查看用于数据比较的偏差模块。

相关性并不意味着因果关系

相关性仅显示变量的相关程度。它并不解释如何相关或为什么相关。 

例如,冰淇淋销量与太阳镜销量相关。人们购买冰淇淋是因为购买了太阳镜,或者反过来吗?并不是的。同时购买这两者显然是出于别的什么原因。在此例中,原因可能是天气炎热。

显示冰淇淋销量与太阳镜销量之间呈正相关的散点图。

重要的是要尽量避免仅根据相关性做出假设并得出错误的结论。始终考虑是否存在其他隐藏变量会影响数据中显示的内容。 

注意用词

请注意用于描述和注释图表的语言。考虑以下内容:

  • 标题和副标题是否正确描述了图表?
  • 图表的标签是否正确?
  • 这些词语的感情色彩是否过浓,影响了您对数据的看法?

不断提问

当您看图表和他人对数据的解释或视觉表示时,一定要提出问题。如果您发现某些内容不合理,请询问原因并深入研究数据。通过保持好奇心和提出聪明的问题,您将学到很多东西并能帮助周围的人。

使用 SCAM 检查列表

为了帮助指导您对图表进行审查和审慎分析,请参考方便的 SCAM 检查列表。SCAM 代表 Source(来源)、Chart(图表)、Axe(轴)和 Message(消息)。

SCAM 检查列表

使用检查列表作为提醒,在查看图表时提出以下问题:

SCAM 检查列表 

来源

  • 数据来自何处?
  • 数据是如何收集的?
  • 由何人呈现?
  • 对数据进行了哪些总结?

图表

  • 图表中是否使用了任何误导性的设计实践,可能会欺骗您或分散您的注意力,让您无法对数据作出正确解释?

图表上的轴

  • 有多个轴吗?
  • 各个轴是否从零开始?
  • 比例尺和间隔是多少?
  • 轴是否可能被用于欺骗性的用途?

消息(或解释) 

  • 可视化传达了什么消息或解释?
  • 解释是否适合所示的数据分析?
  • 解释中进行了哪些类型的比较?
  • 这些比较是否适当且公平?

讨论数据

正如您现在所看到的,看图表并不像看起来那么简单和直接。批判性思考和问自己一些聪明的问题非常重要,但与他人一起分析数据也会非常有帮助。与您的同事和朋友讨论您的解释和图表评论。您会发现你们可以互相帮助,成为更熟练的图表和数据阅读者。

总结

每次准确解读图表或指出误导性图表时,您都可以帮助改进决策方式。凭借您的批判性思维能力以及刚刚学习的知识和工具,您能够更好地分析和解释图表,并从对数据和信息的更深入理解中受益。现在就去征服这些图表吧! 

资源