发现变量和字段类型
学习目标
完成本单元后,您将能够:
- 认识不同类型变量。
- 区分名称定性、序数定性和定量变量。
- 区分连续和离散变量。
变量类型
在结构化数据模块中,您学过数据被编排为列或字段,并且在结构化数据中,字段由变量组成,每个字段包含一个变量。
如果您已完成 Data Literacy Basics(数据素养基础)模块,那么您知道数据由定性和定量变量组成。定性变量是不可数的变量,比如类别或特征。定量变量是可数的变量,比如某个集合中的项目数量。添加到某个数据集中的时候,定性变量成为定性字段(列),而定量变量成为定量字段(列)。
姓名 |
年龄 |
身高 | 最喜爱的食物 |
---|---|---|---|
Aliya | 8 | 4'2” | 冰淇淋 |
Miles | 12 | 5'3” | 橄榄披萨 |
Penny | 42 | 5'7” | 玉米棒子 |
Vince | 39 | 5'10” | 烙饼 |
在上表中,姓名和最喜爱的食物是定性字段,而年龄和身高是定量字段。
定性变量的类型
定性变量(不可数变量)可以进一步分为两类:名称和序数。
- 名称:名称定性变量是无法进行排序的类别。比如,我们来思考几种水果:香蕉、葡萄、杏子和苹果。这些属于名称变量,因为它们不隐含任何排序关系。比如,香蕉并没有排在杏子前面。
记住名称变量的定义的一种方法是:名称 = 命名。
- 序数:与名称定性变量不同,序数定性变量可以排序。它们之所以是定性的,是因为不可数,但是它们中存在一种逻辑排序。比如,思考一下您可能做过的调查。调查表上的序数定性值例子包括:从不、有时候、大多数时候、总是、极其不满意、不满意、既没有满意也没有不满意、满意、极其满意。
记住序数变量的定义的一种方法是:序数 = 排序。
我们来检查一下您的理解程度。在下面的活动中,您需要确定每个特征是名称定性变量、序数定性变量还是定量变量。把每一组特征拖到正确的类别中。
离散变量和连续变量
变量的另一种分类包括离散变量和连续变量。
- 离散变量:离散变量是单独分开的,明显不同。简而言之,如果您可以逐个地数,它就是离散变量。比如,您可以逐个数某个家庭有几个孩子。一个家庭可以有 0 个孩子、3 个孩子、6 个孩子,等等,但是不可能有 3.45 个孩子。
一只脚的脚趾数量和抽屉里的袜子总数也属于离散变量。您所在城市所有人所有脚的脚趾总数甚至也是一个离散变量。一一数出所有脚趾需要很长时间,但还是可能做到的。
- 连续变量:连续意味着形成一个不间断的整体,没有中断。这些变量不可能在有限的时间内数出来,因为任意两个值之间都有无数个值。比如,如果您想测量时间,每个单位时间都可以分为更小的单位:对刺激的响应时间可以表示为 1.64 秒,或者也可以进一步细化,表示为 1.642378765 秒,以此类推,没有穷尽。连续值的其他例子包括温度、距离和质量。
通过这些互动抽认卡来测试您对离散和连续变量的理解程度。
请阅读每张卡上的示例,思考它是离散还是连续变量,然后单击卡片查看正确答案。单击向右箭头可移至下一张卡,单击向左箭头可返回上一张卡。
下一个单元,您将学习如何在数据可视化中应用不同变量类型。