可视化查看变量
学习目标
完成本单元后,您将能够:
- 描述定量和定性变量在可视化视图中的各种用途。
- 在可视化视图中运用变量。
在上一个单元,您了解到变量可以是定性的或定量的,并且在数据集中编排为字段或列。但是,在把数据可视化时,如何运用这些变量呢?
定量和定性变量在可视化视图中的用法不同。
- 定量变量是可以计算的数据元素。可以对它们进行聚合(总和及平均是聚合的两个例子)。比如,在展示某个区域销售额的可视化视图中,销售额是一个定量变量。
- 定性变量设定可视化视图中的详细程度。定性变量可以用来分类、细分和反映您的数据的详细情况。比如,在展示各个区域销售额的可视化视图中,区域是一个定性变量。
可视化视图总览
为了举例说明只查看某个定量变量(字段)或同时查看定量变量和定性变量(字段)的效果,我们来看一些可视化视图,展示某家企业不同产品的利润总额。
左边的视图只包含一个定量变量,企业的利润总额。您可以看出该企业产生的利润共计 140 多万美元。右边的视图包含一个定性变量(类别),因此您可以看到按三个产品类别:家具、办公用品和技术细分的利润总额。
例子:在可视化视图中运用变量
既然您已经看过可视化视图如何实现,那么我们来看一下定量和定性变量如何在可视化视图中透露更深入的数据洞察。我们采用一个包含一家虚构的特许经营企业信息的数据集。我们检查数据中的变量,然后研究运用定量和定性变量的一些可视化视图。
- 检查变量
我们来看一些变量。
Category(类别)、Order Priority(订单优先级)、Ship Mode(发货模式)以及Sub-Category(子类别)是定性变量。Profit(利润)、Sales(销售额)和 Shipping Cost(运费)是定量变量。
- 仔细研究定性变量
花点时间看一下定性变量的行级值。
Category(类别)和 Sub-Category(子类别)包含不隐含任何排名或顺序的值名称。这些是名称变量。
Order Priority(订单优先级)和 Ship Mode(发货模式)包含隐含逻辑排名或顺序的值。这些是序数变量。研究可视化视图的时候,这个区别很重要。
- 查看添加定性变量之前的可视化视图
我们先从只包含一个定量变量,展示平均运费的可视化视图开始。
- 查看添加了名称变量的可视化视图
定性变量给视图增加了更详细的信息。
我们从名称变量开始。添加 Category(类别)这个维度后,现在按产品类别细分平均运费。我们可以看到 Technology(技术)产品类别的平均运费最高。
右边的视图挖掘得更深,增加了名称变量 Sub-Category(子类别)。现在我们可以看到,尽管按产品类别看 Technology(技术)的平均运费最高,但是按产品子类别看 Tables(桌子)的平均运费最高。
- 查看添加了一个序数变量的可视化视图
现在我们来看,尝试另一种可视化视图时会发生什么,该视图用一个序数变量按 Order Priority(订单优先级)来分析平均运费。
您注意到了什么?令人惊讶的是,低优先级订单的平均运费高于中等优先级订单。
- 查看添加了第二个序数变量的可视化视图
添加第二个序数变量使我们可以按 Order Priority(订单优先级)和 Ship Mode(发货模式)来分析平均运费。
您注意到了什么?令人惊讶的是,对于中等优先级的订单,按第一类发货的订单平均运费高于同一天发货的订单。
在本模块中,您学习了如何把变量分为定量、定性、离散和连续变量。您还研究了带一个定量变量以及带名称和序数定性变量的一些可视化视图。现在,您知道如何在可视化视图中运用变量。