学习数据的组织方式
学习目标
完成本单元后,您将能够:
- 描述结构严谨的数据是如何组织的。
- 区分结构严谨的数据和格式糟糕的数据。
简介
在上一个单元,您学习了优质、有用的数据的一些特点。与数据组织有关的两个特点是多维结构和细微。多维结构化数据分成两类:维度(定性值)和度量(定量值)。这是解释数据时 Tableau 用到的组织结构。细微的数据非常精细化,您能以不同的详细程度分析数据。
有条理的数据更容易分析,因为可以用许多不同的方法来挖掘、汇总、搜索和筛选。没有条理的数据在分析的可能性上往往是有限的。比如,如果数据已经按月汇总,那就无法挖掘每日或每周趋势。
在本单元中,您将学习结构严谨的数据是如何组织的。
数据的组织
数据被编排成行和列。
- 列是纵向的,每一列代表一个不同的变量(或字段)。数据素养基础模块把变量定义为可能会变异或变化的某个项目的度量、属性或特征。在 Tableau 平台中,变量叫做字段。
- 行是横向的,每一行代表一个分析单位。在 Tableau 平台中,分析单位叫做值。
我们来看一个示例。想一想您的几个家人或朋友,用以下变量(或字段)创建一个表格:姓名、年龄、身高和最喜爱的食物。您的表格可能看起来如下所示。
姓名 | 年龄 | 身高(英寸) | 最喜爱的食物 |
---|---|---|---|
Aliya |
8 |
50” |
冰淇淋 |
Miles |
12 |
63” |
橄榄披萨 |
Penny |
42 |
67” |
玉米棒子 |
Vince |
39 |
70” |
烙饼 |
您可以看出,变量(或字段)被编排成列,姓名、年龄、身高和最喜爱的食物各为一列。每一行代表一个分析单位(或值)。在这个例子中,读完任意一行您可以得知一个人的姓名、年龄、身高以及最喜爱的食物。比如,Aliya 8 岁,50 英寸高,喜欢吃冰淇淋。
“好”数据的组织方式
“好”数据是结构严谨的数据,以如下方式组织。
- 每个变量(字段)占一列,带列标题。
- 对该变量的每个不同观察(值)单独占一行。
比如,请看这个简单的表格。变量(字段)是厂商、城市和州,每个变量单独占一列,带列标题。每一行列示对变量的观察(值),这里是厂商名称以及所在的城市和州。让厂商所在的州单独占一列便于按州搜索和筛选厂商。如果厂商的城市和州合并到一个字段,那么这种分析将更难进行。
厂商 | 城市 | 州 |
---|---|---|
Polly’s Lollipops |
Preston |
华盛顿州 |
Lucy’s Lollies |
Lansing |
密歇根州 |
Carlo Callazo’s Candy |
Cambridge |
马萨诸塞州 |
Ming’s Minty Meringues |
Madison |
威斯康星州 |
格式糟糕的数据
格式糟糕的数据包含某些特点,会造成数据杂乱无章或者使数据很难用包括 Tableau 在内的软件程序解释。其中一些问题包括:
- 变量(字段)不是每个单独占一列,带列标题。
- 对变量的每个不同观察(值)不是单独占一行。
- 标题设为列标题上方的行或者额外的列。
- 有额外的列和行。
- 列标题设为副标题,不在第一行。
比如,这是一个格式糟糕的表格,记录 2019 年加州和纽约 16,000 人样本的平均观影次数。
您是否注意到了上文所列的格式糟糕的数据的任何特点?
- A. 标题在行中:第一行应该只包含列标题。这一行和它下面这一行是标题,而不是列标题。
- B. 列标题在第三行:虽然突出显示了,但是包括 Tableau 在内的大多数软件程序无法把“特点”和“样本大小”作为列标题读取。
- C. 额外的列:这是报告的标题,但是设为单独一列。
- D. 额外的行:州是一个变量(字段),应该单独占一列,带列标题,而不是一行。
- E. (和 F.)变量(字段)作为副标题:这一列中的副标题(年龄组、2019 年平均观影次数)是应该自成一列的变量(字段)。
现在您了解了数据的组织方式以及结构严谨和格式糟糕的数据的区别。下一个单元,我们将研究重组格式糟糕的数据的一些方法。