研究粒度
学习目标
完成本单元后,您将能够:
- 定义粒度。
- 了解聚合和粒度如何影响数据。
什么是粒度?
粒度是指数据的详细程度。上一个单元中,您看到了下面的条形图,其中年龄变量中的所有值都被聚合为一个总和。这一信息不是十分详细,因此粒度较低。
该条形图显示的是完全聚合的数据,整个数据集只有一个数字。抖动散点图显示完全分解的数据,每个值都有一个标记。抖动散点图更加详细,因此比条形图的粒度更高。条形图的聚合度高,粒度低。抖动散点图的聚合度低,粒度高。
这一分解数据显示最小单位的信息,是所有视图中粒度最高的。如结构严谨的数据模块所述,“最低细节级”是有意义的数据的特征之一。
粒度的例子
我们继续研究粒度。我们将采用一个包含特许经营企业信息的数据集并通过不同的粒度水平来分析数据。
这个数据集包含 5 万多行。每一行都包含单笔交易信息。更低的粒度(更高的聚合)允许您看到更大的模式。更高的粒度(更低的聚合)可以让您看到模式背后的细节。
散点图是一种用户可以把数字数据(定量变量)绘制在横轴和纵轴上的图形,可以看出数值之间的关联或关系。比如这个例子中通过散点图来查看企业的销售额和利润之间的关系。
查看包含两个定量变量的散点图
我们从 Profit(利润)和 Sales(销售额)这两个定量变量入手,如下面散点图所示。
这个时候,一个数字(销售额)参照另一个数字(利润)绘制。这两个数字只用一个数据点或标记进行比较,因为销售额和利润完全聚合为一个数字(销售额总和和利润总和)。
此数据不是十分详细,因此粒度较低。为了了解该企业的利润和销售额,数据必须进一步细化。
查看添加了定性变量的散点图
如果在散点图中加入定性变量,数据的粒度就会增加。
给 Category(类别)定性变量做了颜色标记后,现在数据分为三种标记,分别针对售出的每个产品类别。它比只有一种标记的散点图更细化,不过您可能还想看到更详细的数据。
请看下面的散点图中按类别显示的利润。家具的利润低于其他两类。下一步合理的做法是进一步提高粒度,调查这个趋势是否在所有区域市场均存在。
查看添加了第二个定性变量的散点图
在下面的可视化中添加了 Region(区域)定性变量后,您可以探索家具在所有区域市场的利润是否都较低。将来自数据源的离散区域数量乘以类别数量,在散点图中产生标记。因此,13 个区域乘以三个类别,在散点图中产生 39 个标记。
现在数据的粒度足够小,您可以看出家具利润低的潜在原因。东南亚地区的家具利润显著低于其他区域。您可以继续提高数据的粒度,更深入挖掘该区域家具的负利润。
查看包含筛选后的数据的散点图
您注意到了东南亚地区的家具利润显著低于其他区域。您想了解无法盈利是一两笔交易造成的还是许多交易都无利可图。
您知道该数据集中每一笔交易占一行。如果把数据分解,您可以看到数据集中每笔交易都有一个数据点(或标记)。但是把数据分解到这个程度之前,请先筛选数据,只保留东南亚地区的家具交易。
下面的散点图显示,筛选后的数据只包含 Southeast Asia(东南亚)家具的一个标记。
查看分解的数据
数据经过筛选只显示东南亚的家具后,现在您可以看到最高粒度的数据了。
分解数据后,每一行选中的数据中的每个数据值显示一个单独的标记。在下图中,您可以看到东南亚每笔家具交易有一个标记。通过这种方法研究粒度水平会得到一个重要发现:在东南亚许多家具销售交易均无利可图。
现在您知道预定义聚合如何影响数据,以及不同水平的粒度如何影响数据分析。
资源