发现变量和字段类型
学习目标
完成本单元后,您将能够:
- 认识不同类型变量。
- 区分名称定性、序数定性和定量变量。
- 区分连续和离散变量。
变量类型
在结构严谨的数据模块中,您了解到数据被组织成列或字段。在结构严谨的数据中,每个字段代表一个变量。
变量是数据的构建块。将数据组织成表时,这些变量会转化为字段(即垂直列)。根据测量对象的不同,这些字段主要分为两类:
定性字段(分类型):定性变量描述无法用数字衡量的特征或属性。在数据集中,这些以定性字段(列)形式呈现。
定量字段(数值型):定量变量表示可以测量或计数的数量。在数据集中,这些以定量字段(列)形式呈现。
由于定量数据涉及数值,我们根据这些数值的收集方式进一步将其细分为两类:
- 离散变量:可计数且数值间存在明确界限的数值。无法存在分数形式的计数值。例如,“物品数量”可为 1 或 2 件,但不能是 1.5 件。
- 连续变量:可测量数值,可在范围内取任意值(含小数)。例如,“身高”可为 5.75 英尺。
下表中,“姓名”和“最喜爱的食物”列记录描述性特征,故为定性字段。“年龄”和“身高”列记录数值测量结果,故为定量字段
每个列标题代表一个独立变量,每行则包含特定个体的数据。
名称 | 期限 | 身高 | 最喜爱的食物 |
|---|---|---|---|
Aliya | 8 | 4'2” | 冰淇淋 |
Miles | 12 | 5'3” | 橄榄披萨 |
Penny | 42 | 5'7” | 玉米棒子 |
Vince | 39 | 5'10” | 烙饼 |
在上述表中:
- “年龄”属于离散定量字段(通常以整年计数)。
- “身高”属于连续定量字段(可精确测量至小数位)。
定性变量的类型
定性变量(不可数变量)可以进一步分为两类:名称和序数。
- 名称:名称定性变量是无法进行排序的类别。比如,我们来思考几种水果:香蕉、葡萄、杏子和苹果。这些属于名称变量,因为它们不隐含任何排序关系。比如,香蕉并没有排在杏子前面。
记住名称变量的定义的一种方法是:名称 = 命名。
- 序数:与名称定性变量不同,序数定性变量可以排序。它们之所以是定性的,是因为不可数,但是它们中存在一种逻辑排序。比如,思考一下您可能做过的调查。调查表上的序数定性值例子包括:从不、有时候、大多数时候、总是、极其不满意、不满意、既没有满意也没有不满意、满意、极其满意。
记住序数变量的定义的一种方法是:序数 = 排序。
我们来检查一下您的理解程度。在下面的活动中,您需要确定每个特征是名称定性变量、序数定性变量还是定量变量。把每一组特征拖到正确的类别中。
离散变量和连续变量
变量的另一种分类包括离散变量和连续变量。
- 离散变量:离散变量是单独分开的,明显不同。简而言之,如果您可以逐个地数,它就是离散变量。比如,您可以逐个数某个家庭有几个孩子。一个家庭可以有 0 个孩子、3 个孩子、6 个孩子,等等,但是不可能有 3.45 个孩子。
一只脚的脚趾数量和抽屉里的袜子总数也属于离散变量。您所在城市所有人所有脚的脚趾总数甚至也是一个离散变量。一一数出所有脚趾需要很长时间,但还是可能做到的。
- 连续变量:连续意味着形成一个不间断的整体,没有中断。这些变量不可能在有限的时间内数出来,因为任意两个值之间都有无数个值。比如,如果您想测量时间,每个单位时间都可以分为更小的单位:对刺激的响应时间可以表示为 1.64 秒,或者也可以进一步细化,表示为 1.642378765 秒,以此类推,没有穷尽。连续值的其他例子包括温度、距离和质量。
通过这些互动抽认卡来测试您对离散和连续变量的理解程度。
请阅读每张卡上的示例,思考它是离散还是连续变量,然后单击卡片查看正确答案。单击向右箭头可移至下一张卡,单击向左箭头可返回上一张卡。
下一个单元,您将学习如何在数据可视化中应用不同变量类型。
资源
