Skip to main content
Dreamforce 将于 9 月 17 日至 19 日来到旧金山。立即注册,使用代码 DF24TRAIL20 节省 20%

对数据进行提问

学习目标

完成本单元后,您将能够:

  • 调查数据和图表的来源。
  • 评估数据和分析的可信度。
备注

本单元中列出的一些图像经 Alberto Cairo 许可使用,取自其作品《数据可视化陷阱》

了解来源

“不要相信任何没有明确提及或链接到其发布的故事来源的出版物。”–Alberto Cairo,数据可视化专家以及《数据可视化陷阱》一书的作者

本单元中列出的一些图像经 Alberto Cairo 许可使用,取自其作品《数据可视化陷阱》

不管是业务报告还是社交媒体帖子,识别和评估您遇到的数据和图表的来源都非常重要。了解来源是确定图表是否具有误导性的第一步(也是最重要的一步!)。通过提出问题来调查来源,以了解图表的创建者、内容、创建地点、创建时间和创建原因。

调查主题 目的 要问的问题

确认数据的来源以及信息的产生或以特定方式呈现是否存在既得利益。

  • 谁对数据、分析和最后的呈现负责?
  • 谁收集、分析或创建数据?
  • 是否有人付费请作者收集、分析和呈现数据?如果是,是否存在潜在的利益冲突?
  • 图表的作者或发布者是该主题的权威吗?
  • 这项工作是否有某个特定组织或多个组织参与?

内容

了解收集的数据类型及其测量方式,以便验证所呈现数据的准确性。

  • 收集和准备数据时使用了哪些方法?
  • 作者呈现了哪些类型的数据?
  • 进行了哪些类型的测量?这些测量的准确度如何?
  • 数据的样本量是多少?
  • 有多少人接受了民意调查?受访者的人口统计数据是怎样的?

地点

评估所使用的数据收集方法并进一步评估来源的可信度和背景。

  • 数据是从特定地区、州/省或国家收集的吗?
  • 数据是在不同地点收集的吗?
  • 数据是否可以在可靠来源网站上获得?

时间 

根据收集数据的时间确定所使用数据的相关性。

  • 数据是最新的吗?
  • 数据是否追溯到过去?如果是,过去的多长时间?
  • 数据是按年、按月、按日、甚至按分钟或秒收集的吗?

原因

发现任何可能影响所呈现数据客观性的潜在财务、政治、科学、慈善或其他动机。

  • 作者收集数据和进行分析是否有特定的动机?
  • 是某家公司付费聘请研究人员来测试新产品吗?
  • 是由社区赞助的政府研究吗?

为了帮助您对数据提问,请务必研究元数据,即关于数据的数据。阅读随附的文档,从元数据中收集有用的见解,例如收集数据的时间、方式和原因。

备注

有关如何有效评估消息来源可信度的更多提示,请查看华盛顿大学的“精明信息消费者研究指南”

检查数字

您有没有听过这么一句话,“输入的是垃圾,产出的也是垃圾”?这个常用短语背后的理念是任何输出的质量都是由输入的质量决定的。这一理念适用于各种各样的事情,包括数据消费。当您查看基于不准确数据(垃圾输入)的图表等可视化时,您就面临形成不准确结论并采取无效行动(垃圾输出)的风险。为了帮助确定可视化中呈现的数据的质量和准确性,请尽可能多地查看基础数字。

检查汇总值

图表通常附有描述和总结基础数据的汇总值。汇总值,也称为汇总统计,传达有关数据的高级信息,通常揭示了值得考虑和进一步调查的有意义的见解。下表将帮助您熟悉常见的汇总值。

汇总值 描述

总和

值的总和 

计数

值的数量

平均

数字平均值,通过将数字总数(总和)除以数据集中的值数量(计数)计算得出

中值

按数量级排列值的数据集中的中间值(从最小到最大)

模式

最常见的值

范围

最小值和最大值之间的差异

最小值

最小的值

最大值

最大的值

备注

这些只是您可能遇到的一些常见汇总值,还有更多。要了解更多信息,请查看数据分布以及聚合和粒度模块。

检查比率和百分比

比率和百分比衡量值之间的关系。例如,您可能会发现参加了演示会的与会者中有五分之三的人注册了新闻简报。您会说 ⅗ 或 0.60 或 60% 的与会者注册了新闻简报。正如您在下一节中看到的,了解比率或百分比经常可以帮助您进行更好的比较。 

例如,一篇文章的标题称,“2,139 名 DACA 受益者被定罪或被指控犯罪。”如果没有上下文,这个数字可能看起来很大。但是,如果查看比率或百分比,您就会有一个新的视角。同一篇文章还指出,DACA 受益者数量超过 800,000 人。如果考虑比率或百分比,您得到的将是 2,139/800,000、0.003 或 0.3%!该百分比值更具参考性,而且在受益者总数中所占的比例并不大。

注意数据不足

“没有任何图表能够完整捕捉现实的丰富性。然而,图表可能会变得更糟或更好,这取决于它能否在过度简化现实和用太多细节模糊现实之间取得平衡。”–Alberto Cairo,《数据可视化陷阱》

看图表时,问问自己是否包含足够的数据来提供有意义且准确的故事版本。在《数据可视化陷阱》一书中,Albert Cairo 解释了数据不足会如何导致得出错误的结论。为了证明这一点,Cairo 引用了一篇文章,该文章称 2017 年《减税和就业法案》(TCJA) 承诺,一个典型的四口之家每年将节省 1,182 美元,他阐述了这个数字为何不能代表全部情况。为了展示更完整的故事,Cairo 描述了一个直方图,这是一种定量数据的分布图,显示按范围分组的数据。 

显示 2017 年美国家庭收入分布的直方图。

让我们通过查看直方图来深入了解为什么这个数字过于简单化。当您查看直方图中的数据时,您会发现所展示的薪资范围极大。由于范围如此广泛,很难确定“典型”工资。显然,美国的薪资差别很大。3% 的家庭年收入低于 5,000 美元,而超过 9% 的家庭年收入超过 200,000 美元。由于一开始就几乎不可能计算出准确的“典型工资”,那么讨论 TCJA 的平均节省就几乎是毫无意义的。

备注

要了解有关分布的更多信息,请完成数据分布模块。

在下一个单元中,了解在轴上使用均匀间隔的重要性。 

资源