测量方差
学习目标
完成本单元后,您将能够:
- 定义方差和标准偏差。
- 计算平均值、方差和标准偏差。
看数据的分布时,您是否会有分散的数据?分散向您透露了数据的什么信息,您可以得出什么结论?在本模块中,您将熟悉偏差的概念,进行有意义或明智的比较,这有助于您探索、了解和传播数据。
方差和标准偏差
数据分布模块介绍了数据的形态(对称或偏态)和中心(平均值或中位数)。
现在我们来看数据的方差或分散程度。方差衡量数据点与平均值相差多大,而标准偏差是统计数据的分布的衡量标准。我们来思考一个例子。
有两组学生做了小测验,总分分别是 10 分。两个组的平均分都是 7 分,即 70%。但是,A 组的分数介于 5 到 9 之间(50% 到 90%),而 B 组的分数介于 4 到 10 之间(40% 到 100%)。B 组的分数比 A 组更分散。
我们想更好地了解数据的分散程度。为此,我们通过以下步骤测量方差和标准偏差。
- 验证平均分。看一下数据,我们看到每个组都有 20 名考生。计算每个组的总分,得出 A 组和 B 组的总分都是 140 分。
A 组得分 | B 组得分 |
---|---|
9 |
10 |
9 |
10 |
9 |
10 |
8 |
9 |
8 |
9 |
8 |
9 |
8 |
8 |
7 |
8 |
7 |
7 |
7 |
7 |
7 |
7 |
7 | 6 |
6 |
6 |
6 |
6 |
6 |
5 |
6 |
5 |
6 |
5 |
6 |
5 |
5 |
4 |
5 |
4 |
要计算平均分,我们把每个组的总分除以该组考生人数即可。对于每个组,方程式是 140/20,每个组的平均分是 7(或 70%)。
A 组:
9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140
140/20 = 7
B 组:
10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140
140/20 = 7
- 得出差后,开始计算方差。
既然我们已经计算出了平均分,现在我们可以开始计算方差。方差衡量数据的分散程度。零方差表示所有数据值都是相同的。高方差表示数据点相对于平均值以及彼此之间都十分分散。
A 组得分 | 与平均分的差(7,或 70%) | B 组得分 | 与平均分的差(7,或 70%) |
---|---|---|---|
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
8 |
1 |
7 |
0 |
8 |
1 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
5 |
-2 |
4 |
-3 |
5 |
-2 |
4 |
-3 |
要计算方差,把每个数据点与平均值的平方差相加,然后除以数据点的数量。
首先我们来计算每位考生与 7 分的平均分之差。比如,9 和 7 的差是 2(即 9 - 7 = 2),6 和 7 的差是 -1(即 6 - 7 = -1)。
- 求平方差,继续计算方差。
我们已经计算了每位考生与平均分之差。现在我们对每个差求平方。比如,9 和 7 的差是 2(即 9 - 7 = 2),2 的平方是 4(即 2 * 2 = 4)。6 和 7 的差是 -1(即 6 - 7 = -1),-1 的平方是 1(即 -1 * -1 = 1)。
A 组得分 | 与平均分的差(7,或 70%) | 与平均分之差的平方值 | B 组得分 | 与平均分的差(7,或 70%) | 与平均分之差的平方值 |
---|---|---|---|---|---|
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
8 |
1 |
1 |
7 |
0 |
0 |
8 |
1 |
1 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
5 |
-2 |
4 |
4 |
-3 |
9 |
5 |
-2 |
4 |
4 |
-3 |
9 |
- 求所有差之和,继续计算方差。
我们已经计算了每位考生与平均分之差,并且对每个差求了平方。现在,我们求每个组的平方差之和:
A 组:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
B 组:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
- 得出求和后的差的平均值,完成计算方差。
要得出方差,我们现在把每个组的平方值之和除以该组数据点(考生)数量,即 20。
A 组的方差是 1.5,B 组的方差是 3.9。
A 组:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
30/20 = 1.5
B 组:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
78/20 = 3.9
- 计算标准偏差。
标准偏差衡量一个数据集相对于其平均值的分散程度,通过方差的平方根计算得出。数据点离平均值越远,数据集的偏差越大。换句话说,数据越分散,标准偏差越大。
我们已经计算了每个组的方差。为了得出每个组的标准偏差,我们要计算方差的平方根。
A 组的标准偏差是 1.22,B 组的标准偏差是 1.97。
A 组:
方差 = 1.5
1.5 的平方根 = 1.22
B 组:
方差 = 3.9
3.9 的平方根 = 1.97
- 回到数据。
现在我们可以显示每个组里哪些考生的分数在平均分的一个标准偏差范围内。(与平均分之差可以是正数,也可以是负数。)
A 组得分 | 与平均分的差(7,或 70%) | 与平均分之差的平方值 | 是否在平均分的 1 个标准偏差范围内 (1.22)? | B 组得分 | 与平均分的差(7,或 70%) | 与平均分之差的平方值 | 是否在平均分的 1 个标准偏差范围内 (1.97)? |
---|---|---|---|---|---|---|---|
9 |
2 |
4 |
否 |
10 |
3 |
9 |
否 |
9 |
2 |
4 |
否 |
10 |
3 |
9 |
否 |
9 |
2 |
4 |
否 |
10 |
3 |
9 |
否 |
8 |
1 |
1 |
是 |
9 |
2 |
4 |
否 |
8 |
1 |
1 |
是 |
9 |
2 |
4 |
否 |
8 |
1 |
1 |
是 |
9 |
2 |
4 |
否 |
8 |
1 |
1 |
是 |
8 |
1 |
1 |
是 |
7 |
0 |
0 |
是 |
8 |
1 |
1 |
是 |
7 |
0 |
0 |
是 |
7 |
0 |
0 |
是 |
7 |
0 |
0 |
是 |
7 |
0 |
0 |
是 |
7 |
0 |
0 |
是 |
7 |
0 |
0 |
是 |
7 |
0 |
0 |
是 |
6 |
-1 |
1 |
是 |
6 |
-1 |
1 |
是 |
6 |
-1 |
1 |
是 |
6 |
-1 |
1 |
是 |
6 |
-1 |
1 |
是 |
6 |
-1 |
1 |
是 |
5 |
-2 |
4 |
否 |
6 |
-1 |
1 |
是 |
5 |
-2 |
4 |
否 |
6 |
-1 |
1 |
是 |
5 |
-2 |
4 |
否 |
6 |
-1 |
1 |
是 |
5 |
-2 |
4 |
否 |
5 |
-2 |
4 |
否 |
4 |
-3 |
9 |
否 |
5 |
-2 |
4 |
否 |
4 |
-3 |
9 |
否 |
您已经看过了计算方差和标准偏差的过程。本单元后面您有机会在一个简单的场景下运行这些运算。
样本方差
如果您没有总体的数据,应该怎么做?
计算总体方差与计算总体的一个样本或子集的方差是不同的。对于这两种情况,您都需要计算平均值,然后是与平均值之差、对所有差求平方,然后将平方差进行求和。
跟上文中的例子一样,计算总体方差时,将与平均值的平方差之和除以总体中的个数。比如,对于 20 的总体,我们除以 20。
差别如下。计算样本方差时,将与平均值的平方差之和除以样本中的个数减一。在这个例子中,如果总体的样本(或子集)中有 20 个,那么除以 19。这个差别的目的是对总体方差得出偏差更小的估计。换句话说,除以样本量减一 (n-1) 可以补偿使用样本而不是总体。小 n 代表样本中的观察数量。
例子:计算方差和标准偏差
现在,继续用一个数量更少的例子来确定方差和标准偏差。
假设您家里有五只猫,Cinnamon、The Amazing Fluffy、Lilypad、Danielle 和 Steve。
为了简明一点,我们把您家里的猫作为总体而不是样本。您称量每一只猫的体重,并记录结果,如下表所示。
猫的名字 | 体重(单位:磅) |
---|---|
Cinnamon |
7 |
Danielle |
8 |
Lilypad |
9 |
Steve |
12 |
The Amazing Fluffy |
14 |
首先,计算五只猫的平均体重。
- 把所有体重相加:
7 + 8 + 9 + 12 + 14 = 50
- 然后将总和除以数据中猫的数量:
50/5 = 10
10 磅是这一组猫的平均体重。
现在,开始计算方差。 - 首先,计算每只猫与平均体重之差:
猫的名字 体重(单位:磅) 与平均体重的差
(10 磅)
Cinnamon
7
7 - 10 = (-3)
Danielle
8
8 - 10 = (-2)
Lilypad
9
9 - 10 = (-1)
Steve
12
12 - 10 = 2
The Amazing Fluffy
14
14 - 10 = 4
- 现在,对每个与平均值的差求平方。
猫的名字 体重(单位:磅) 与平均体重的差
(10 磅)
与平均体重之差的平方值 Cinnamon
7
(-3)
(-3) * (-3) = 9
Danielle
8
(-2)
(-2) * (-2) = 4
Lilypad
9
(-1)
(-1) * (-1) = 1
Steve
12
2
2 * 2 = 4
The Amazing Fluffy
14
4
4 * 4 = 16
- 下一步,将所有与平均体重之差的平方值相加:
9 + 4 + 1 + 4 + 16 = 34
- 然后,将结果除以数据点(猫)的数量:
34/5 = 6.8。所以,6.8 是猫的方差。
- 既然您已经计算出了方差,现在可以得出方差的平方根,从而得出标准偏差。(您可以用计算器来计算。)
6.8 的平方根等于 2.6。所以,2.6 是标准偏差。
现在您可以看到哪些猫的体重在平均体重(10 磅)的一个标准偏差(2.6 磅)范围内:
猫的名字 | 体重(单位:磅) |
与平均体重的差 (10 磅) |
是否在一个标准偏差(2.6 磅)范围内? |
---|---|---|---|
Cinnamon |
7 |
(-3) |
否 |
Danielle |
8 |
(-2) |
是 |
Lilypad |
9 |
(-1) |
是 |
Steve |
12 |
2 |
是 |
The Amazing Fluffy |
14 |
4 |
否 |