重组数据
学习目标
完成本单元后,您将能够:
- 认识数据重组方法。
- 描述旋转数据的目的。
- 描述拆分数据的目的。
简介
您学习了如何通过分辨优质、有意义的数据的特点来鉴别“好”数据,并且了解了结构严谨的数据是如何组织的。但是如果数据的结构不够好,您应该怎么做呢?在本单元,您将研究一些重组数据的方法,比如使用旋转和拆分变量(字段)。
重组数据的方法
可以用来重组数据的方法包括:
- 改变底层数据库
- 运用编程语言,如 R 或 Python
- 运用 Tableau 平台中的工具,如旋转和拆分数据,包括 Tableau Prep Builder 或 Tableau Desktop
- 运用其他 ETL(提取、转换、加载)工具
在有些情况下,您可以自定义描述数据的元数据,而不是修饰实际数据。元数据可能包括计算、重命名字段以及默认格式之类的信息。元数据还可能包括对数据结构做了哪些改动。
回顾:结构严谨的数据
回想您在本模块前面学过的结构严谨的数据是如何组织的。
- 每个变量占一列,带列标题。
- 对该变量的每个不同观察单独占一行。
前面我们看过下面这个简单的表格。这里的数据结构严谨。变量是厂商、城市和州,每个变量单独占一列,带列标题。每一行列示对变量(或字段)的观察(或值),这里是厂商名称以及所在的城市和州。
厂商 |
城市 |
州 |
---|---|---|
Polly’s Lollipops |
Preston |
华盛顿州 |
Lucy’s Lollies |
Lansing |
密歇根州 |
Carlo Callazo’s Candy |
Cambridge |
马萨诸塞州 |
Ming’s Minty Meringues |
Madison |
威斯康星州 |
如果您的数据结构混乱,那么您需要完成一些数据准备任务,才能让数据集对分析有用。
把结构糟糕的数据转变成结构严谨的数据的一些常见任务包括:
- 把列旋转成行,或者反之
- 拆分字段
什么是旋转?
简而言之,旋转把列变成行,有些情况下反过来。
通过许多列抓取信息并且这些列包含类似信息时,可以对“宽”数据集进行旋转。这种结构可能对于用户报表来说更方便,但是对于分析不是那么有用。比如,在分析“高/窄”表格结构中的数据时,Tableau Desktop 的作用最大。
请思考这个表格,它列出了员工支付的停车费。每个员工占一行,每个日期占一个字段(列)(2/5/2020, 2/6/2020, 以此类推)。
员工 |
2/5/2020 |
2/6/2020 |
2/7/2020 |
2/8/2020 |
2/9/2020 |
---|---|---|---|---|---|
Christine |
10 |
10 |
10 |
10 |
10 |
Tristan |
10 |
||||
Lily |
10 |
10 |
|||
Jamal |
10 |
10 |
如果我们把这种数据结构导入一些工具,比如 Tableau Desktop,对于每一列,得到一个字段。有五个字段,全部代表当日支付的停车费。这样的话,很难跨时间分析数据,因为数据保存在分开的字段中。字段(变量)员工、日期和停车费都应该单独占一列,带列标题。每一行应该列示值(对变量的观察)——这里是员工姓名、日期和支付的停车费。
经过旋转后,实现了理想的数据结构,如下表所示。现在您可以分析这些数据,观察随时间变化的趋势,因为所有日期值都在同一列中。
员工 |
日期 |
停车费 |
---|---|---|
Christine |
2/5/2020 |
10 |
Christine |
2/6/2020 |
10 |
Christine |
2/7/2020 |
10 |
Christine |
2/8/2020 |
10 |
Christine |
2/9/2020 |
10 |
Tristan |
2/5/2020 |
10 |
Lily |
2/5/2020 |
10 |
Lily |
2/9/2020 |
10 |
Jamal |
2/5/2020 |
10 |
Jamal |
2/7/2020 |
10 |
什么是拆分?
简单来讲,拆分是把包含多个信息片段的一列分成多列,每个信息片段占一列。
拆分根据分隔符(逗号、冒号或连字符之类的符号,位于一个字段值内部明显有区别的信息片段之间)把字符串(文本)字段值分开。当字段组件具有可以用来分析数据的含义时,拆分是有用的。
在下面的例子中,航空公司字段的值包含航空公司名称以及由两个字母组成的航空公司代码。这两种信息之间的冒号是分隔符。
航空公司 |
---|
美国航空:AA |
达美航空:DL |
捷蓝航空:B6 |
联合航空:UA |
拆分之后,航空公司名称和代码位于表格的不同列中。现在更容易按航空公司的代码来分析这些数据。
航空公司 |
航空公司代码 |
---|---|
美国航空 |
AA |
达美航空 |
DL |
捷蓝航空 |
B6 |
联合航空 |
UA |
现在您了解了数据的特点和组织,以及重组数据的方法,包括旋转和拆分字段。
使用下表回答第一个测验问题。
城市 | 州 | Q1 | Q2 | Q3 | Q4 |
---|---|---|---|---|---|
旧金山 |
加利福尼亚州 |
$25,465 |
$15,389 |
$19,268 |
$28,491 |
纽约 |
纽约州 |
$42,543 |
$39,642 |
$41,687 |
$44,594 |
西雅图 |
华盛顿州 |
$38,756 |
$32,174 |
$33,452 |
$39,892 |