Skip to main content

学习如何展示离散变量的分布

学习目标

完成本单元后,您将能够:

  • 定义数据分布。
  • 区别离散变量的频率和比例分布。

简介

如果您已完成 Build Your Data Literacy(培养您的数据素养)学习路径中的 Well-Structured Data(结构化数据)模块,您已经了解数据是如何编排成列(或字段)和行的。在结构化数据中,每个变量(字段)都在自己的列中,对于该变量的每个不同观察(值)都在不同的行中。 

变量既可以是离散的也可以是连续的。离散变量的值是分开的,泾渭分明,而连续变量的值形成不间断的整体。要进一步了解变量,请参见 Variables and Field Types(变量和字段类型)模块。 

使用数据时,有时候您可能想看一下某个数据集的分布情况。分布展示所有可能的数据值及其出现频率(次数)。换句话说,分布描述的是每个数据值出现了多少次。分布的编排因变量是离散的还是连续的而异。我们首先来看离散变量。 

离散变量的分布

当您查看离散变量的分布时,可以看到频率(总计数)或比例(百分比)。这是一个改编自在线统计学教育:多媒体学习课程的例子。项目领导:David M. Lane,莱斯大学。

糖果颜色的频率分布

想象您有一袋六种颜色的糖果。思考颜色这个变量。这是一个名称性的定性变量,因此您知道它是离散的。

离散变量是可数的。您把糖果全部倒出来,快速地数一数。您发现,共有 55 颗糖果,其中有 17 颗棕色的,18 颗红色的,7 颗黄色的,7 颗绿色的,2 颗蓝色的,还有 4 颗橙色的。

一只小玻璃碗里面和旁边的彩色糖果

快速数完之后您得到了糖果袋里面糖果颜色的频率分布,或者换句话说,您的袋子里每种颜色的糖果分别有几颗。

您可以制作下面的频率表来描述频率分布。

颜色
频率

棕色

17

红色

18

黄色

7

绿色

7

蓝色

2

橙色

4

或者,您也可以通过图形来展现这种频率分布。用我们的可视化分析平台 Tableau 创建了这个。  

含六个蓝色条的条形图

糖果颜色的比例分布

我们的频率分布例子只涉及您的糖果袋。如果您想知道所有糖果袋的颜色分布,该怎么办?

大量彩色糖果

糖果制造商提供了一些信息,但是它没有准确地列出它到底生产了多少各个颜色的糖果。该公司报告了每种颜色的比例而不是频率(有史以来生产的每种颜色总数)。您可以把比例想成生产的每种颜色的占比,以小数表示。比如,红色糖果的占比是 0.20,即生产的所有糖果中 20% 是红色的。

每颗糖果肯定是六种颜色中的一种,因此如果把所有六种颜色的占比相加,总数将是一(即 100%)。

展示这些比例的图形称为比例分布。下面的条形图展示糖果颜色的比例分布,换句话说,每种糖果颜色占生产的糖果总数的百分比。

含六个蓝色条的条形图,展示糖果颜色的比例分布

用抽认卡测试您的知识

准备好了测试您所掌握的频率和比例分布知识了吗?  看一眼两张分布图,展示一家销售三种类型产品:家具、办公用品和技术的公司。第一张卡展示每个产品类别占订单总数的百分比。第二张卡展示每个类别的订单总数。 

研究这些图形。哪张图是频率分布,哪张图是比例分布?单击向右箭头可移至下一张卡,单击向左箭头可返回上一张卡。单击卡片查看正确答案。 


您已经了解了离散变量的两种类型分布:频率和比例。下一个单元您将学习如何展示连续值的分布。

资源

继续免费学习!
注册帐户以继续。
有什么适合您的内容?
  • 为您的职业目标获取个性化推荐
  • 通过实践挑战和测验练习您的技能
  • 跟踪并与雇主分享您的进度
  • 与人联系以获取指导和就业机会