进行偏差、分布和相关性比较
学习目标
完成本单元后,您将能够:
- 介绍偏差、分布和相关性比较。
- 了解通过图表进行比较的最佳实践。
偏差
偏差比较侧重于值与基准值(有时是平均值或阈值)的差异量。
发散条形图
在本例中,条形的长度显示了到中心值零的距离,以显示利润或亏损金额。您可以快速看到哪些项目和地区不盈利。
折线图
前面,您了解了折线图是显示随时间变化的值的最佳方法之一。类似地,当您希望显示随时间变化的偏差时,折线图是一个很好的选择。下一个例子显示 2022 年和 2023 年每个月急诊室患者数量的同比变化百分比。您可以看到六月的病人数量比前一年增加得最多。
分布
分布图展示所有可能的数据值及其出现的频率(次数)。换句话说,分布图描述了每个数据值在一组数据中出现的次数。
柱状图
您是否曾经用手机上的地图应用程序来了解您最喜欢的餐馆的繁忙时间?您可能已经注意到显示繁忙时间的图表。这张图是直方图。高峰显示了最繁忙的时间。
柱状图类似于条形图,但它将定量值分组到大小相等的范围或柱子中,并计算每个柱子中有多少值以显示柱状图。当使用像 Tableau 这样的程序时,程序会自动确定柱子大小,并给出每个柱子中值的频率(或计数)。
在下面的示例中,柱状图给出了整个数据集的房屋销售价格值的详细视图。您可以看到大多数房子的售价在 10 万到 20 万美元之间。柱状图还显示,与大多数房屋相比,有少数房屋的价格更高。
频率多边形
频率多边形类似于柱状图,不同之处在于频率多边形图用线来连接频率计数。下面的示例显示了与上面的柱状图相同的数据,不同之处在于用一条线连接了每个柱子中的计数。这条线为查看者提供了一个更清晰、更简单的外观。
带状图
带状图在一条线中以一个点显示每个数据值,比柱状图或频率多边形占用的空间少得多。如果有任何值的聚类,带状图是显示分布范围的一种有效方式。如果多个值相同,或者彼此非常接近,则它们绘制在彼此的上面,从而难以区分数据中频繁出现的值。
下面的示例使用了与柱状图相同的数据,您可以看到,尽管带状图可以让您轻松地看到单个价格较高的房屋,但很难查看最常见的销售价格。因此,当数据集较小时,最好使用带状图。
箱型图
与柱状图相比,箱形图以更紧凑的形式显示分布。比较多个分布时,箱形图提供了一种比较类别之间分布的有效方法。箱形图中的箱体表示中间 50% 的数据,即第 25 - 75 个百分位数,并包括一条显示中位数或第 50 个百分位数值的线。
但是在这个区间之外的数据呢?那是箱须出现的地方。箱须画在箱体之外,是在水平横线处截断的垂直线条。箱须让您可以洞察不在数据的中间 50%(箱体)范围内的数值,并给出了区分异常值的边界。异常值可以理解为非典型、不经常出现的观察,或是极端偏离分布中心的值。
下一个例子比较了不同建筑类型的房屋销售价格分布。您可以看到,单户住宅的价值范围比任何其他建筑类型都要大得多,包括许多看似异常的高价住宅。
这个箱型图示例还包括用于显示每个单独值的垂直带状图。现在,您可以在同一个可视化视图中查看每个数据点和分布的详细信息。虽然学习如何读懂箱形图可能需要一些时间,但它们可以在不占用大量空间的情况下传达有关分布的大量信息。
查看 Trailhead 中的数据分布模块以了解有关分布的更多信息。
相关性
相关性比较探索的是定量变量间的关系。它们可以解答“一个变量会随着另一个变量的增加或减少而增加或减少吗?”这类问题。
散点图
散点图用于显示两个定量变量之间的关系,其中一个变量显示在 x 轴上,另一个显示在 y 轴上。散点图可以显示变量之间是否存在关系。例如,一个变量是否与另一个变量“行进方向相同”,以及是否存在何种类型的关系,例如线性或不同的模式。
查看散点图还可以帮助您看到异常值。下面的例子显示了房屋销售价格和居住面积之间的关系。散点图中的每个点都代表一个单独的房屋,房屋销售价格在 y 轴上表示,平方英尺在 x 轴上表示。
虽然散点图可以显示两个变量之间的关系,但它并不能证明一个变量影响另一个变量。您可能听过这样一句话:“相关性不能证明因果关系”,变量之间的关系可能有很多原因。
趋势线
散点图中的趋势线可以帮助您查看关系的总体模式,并总结数据的总体形状。在我们的房屋销售价格和平方英尺的例子中,线性趋势线可以帮助您看到关系的整体模式。
查看 Trailhead 中的相关性和回归模块,了解更多有关相关性和创建线性回归线的信息。
不同大小气泡散点图和表格透镜
前面的散点图显示了两个定量变量之间的关系,其中一个变量显示在 x 轴上,另一个变量显示在 y 轴上。但是当您想比较两个以上的定量变量时,该怎么做呢?您可以使用大小属性来向散点图添加第三个变量。
在 HealthDataViz 的下一个例子中,人均国内生产总值和疫苗覆盖率分别在 x 轴和 y 轴上显示,每个气泡的大小代表人口规模。
在本模块前面,您了解了查看者为什么不能像感知长度等其他属性那样准确地感知定量大小差异。在向散点图添加第三个定量变量时,您没有太多其他选择,因此在散点图中使用大小不同的气泡是一种可接受的方法。使用大小不同的气泡时,要注意第三个变量的观察精度损失。
在没有多少数据点的情况下,或者您只想比较一个变量的顶部或底部的值集的情况下,条形图可以以表格透镜的形式来拯救。表格透镜可以通过三个或更多的定量变量对一个共同的定性(分类)变量进行比较。
这个例子显示的变量与上面的气泡散点图相同,只是它只显示了疫苗覆盖率最低的 10 个国家。表格透镜还可以让您跨多个指标或在一个单独的指标内进行比较。