分散を測定する
学習の目的
この単元を完了すると、次のことができるようになります。
- 分散と標準偏差を定義する。
- 平均、分散、標準偏差を計算する。
データの分布を見たとき、データは広がっていますか? その広がりからデータについてどのようなことがわかり、どのような結論を導き出すことができるでしょうか? このモジュールでは、データを考察、理解、伝えていくうえで役立つ、ばらつきの概念と、十分な情報に基づく適切な比較を行うことについて学習します
分散と標準偏差
「データの分布」モジュールでは、データの形状 (対称または非対称) と中心 (平均値または中央値) について学習しました。
ここでは、データの分散 (広がり) を見てみましょう。分散はデータポイントが平均からどれだけ離れているかを測定するものであり、標準偏差は統計データの分布を測定するものです。では、例を見てみましょう。
2 つのグループの生徒がそれぞれ、10 点満点のテストを受けました。どちらのグループもテストの点数の平均は 7 (70%) でした。ただし、グループ A のテストの点数の範囲が 5 ~ 9 (50% ~ 90%) であるのに対して、グループ B のテストの点数の範囲は 4 ~ 10 (40% ~ 100%) です。グループ B の点数はグループ A よりも広がっています。
データの広がりについてさらに理解を深めたいと思います。そのためには、次の手順を使用して分散と標準偏差を測定します。
- 平均を確認します。データを見ると、各グループのテスト受験者は 20 人であることがわかります。各グループのすべての点数の合計を計算すると、グループ A とグループ B は両方とも 140 になります。
グループ A のテストの点数 | グループ B のテストの点数 |
---|---|
9 |
10 |
9 |
10 |
9 |
10 |
8 |
9 |
8 |
9 |
8 |
9 |
8 |
8 |
7 |
8 |
7 |
7 |
7 |
7 |
7 |
7 |
7 | 6 |
6 |
6 |
6 |
6 |
6 |
5 |
6 |
5 |
6 |
5 |
6 |
5 |
5 |
4 |
5 |
4 |
平均値を計算するために、各グループの合計をグループ内のテスト受験者の数で除算します。各グループで、方程式は 140/20 となり、各グループの平均点は 7 (70%) になります。
Group A:
9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140
140/20 = 7
Group B:
10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140
140/20 = 7
- 分散の計算の開始: 差を求めます。
平均値を計算したところで、次は分散の計算を始めましょう。分散は、データがどれだけ広がっているかを示します。分散が 0 の場合、すべてのデータ値が等しいことを意味します。分散が大きい場合、データポイントが平均値からもお互いからも非常に離れていることを示します。
グループ A のテストの点数 | 平均 (7 (70%)) との差 | グループ B のテストの点数 | 平均 (7 (70%)) との差 |
---|---|---|---|
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
8 |
1 |
7 |
0 |
8 |
1 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
5 |
-2 |
4 |
-3 |
5 |
-2 |
4 |
-3 |
分散を計算するには、各データポイントの平均からの距離の 2 乗を加算し、データポイントの数で除算します。
まずは、各テスト受験者の平均点 7 との差を計算しましょう。たとえば、9 と 7 の差は 2 (9 - 7 = 2) で、6 と 7 の差は -1 (6 - 7 = -1) です。
- 分散の計算のつづき: 差を 2 乗します。
各テスト受験者について、平均との差を計算したところで、次は差を 2 乗しましょう。たとえば、9 と 7 の差は 2 (9 - 7 = 2) で、2 の 2 乗は 4 (2 * 2 = 4) です。6 と 7 の差は -1 (6 - 7 = -1) で、-1 の 2 乗は 1 (-1 * -1 = 1) です。
グループ A のテストの点数 | 平均 (7 (70%)) との差 | 平均との差の 2 乗値 | グループ B のテストの点数 | 平均 (7 (70%)) との差 | 平均との差の 2 乗値 |
---|---|---|---|---|---|
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
8 |
1 |
1 |
7 |
0 |
0 |
8 |
1 |
1 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
5 |
-2 |
4 |
4 |
-3 |
9 |
5 |
-2 |
4 |
4 |
-3 |
9 |
- 分散の計算のつづき: 差を合計します。
これで、各テスト受験者の得点と平均との差を計算し、差を 2 乗できました。次は、各グループの差の 2 乗を合計します。
グループ A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
グループ B:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
- 分散の計算の完了: 差の合計を平均します。
次に、分散を求めるために、各グループの 2 乗値の合計を、グループ内のデータポイント (テスト受験者) の総数 (20) で除算します。
グループ A の分散は 1.5 で、グループ B の分散は 3.9 です。
グループ A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
30/20 = 1.5
グループ B:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
78/20 = 3.9
- 標準偏差を計算します。
標準偏差は、データセットの平均に対する分散を測定するもので、分散の平方根として計算されます。データポイントが平均値から離れるほど、データセット内の偏差は高くなります。つまり、データが広がっているほど、標準偏差は高くなります。
ここまでで、各グループの分散を計算しました。各グループの標準偏差を求めるために、分散の平方根を計算してみましょう。
グループ A の標準偏差は 1.22 で、グループ B の標準偏差は 1.97 です。
グループ A:
分散 = 1.5
1.5 の平方根 = 1.22
グループ B:
分散 = 3.9
3.9 の平方根 = 1.97
- データを見直します。
これで、どのテスト受験者の得点が各グループの平均から 1 標準偏差以内に収まっているかを示すことができます(平均との差は、正の場合と負の場合があります)。
グループ A のテストの点数 | 平均 (7 (70%)) との差 | 平均との差の 2 乗値 | 平均から 1 標準偏差以内 (1.22) か? | グループ B のテストの点数 | 平均 (7 (70%)) との差 | 平均との差の 2 乗値 | 平均から 1 標準偏差以内 (1.97) か? |
---|---|---|---|---|---|---|---|
9 |
2 |
4 |
いいえ |
10 |
3 |
9 |
いいえ |
9 |
2 |
4 |
いいえ |
10 |
3 |
9 |
いいえ |
9 |
2 |
4 |
いいえ |
10 |
3 |
9 |
いいえ |
8 |
1 |
1 |
はい |
9 |
2 |
4 |
いいえ |
8 |
1 |
1 |
はい |
9 |
2 |
4 |
いいえ |
8 |
1 |
1 |
はい |
9 |
2 |
4 |
いいえ |
8 |
1 |
1 |
はい |
8 |
1 |
1 |
はい |
7 |
0 |
0 |
はい |
8 |
1 |
1 |
はい |
7 |
0 |
0 |
はい |
7 |
0 |
0 |
はい |
7 |
0 |
0 |
はい |
7 |
0 |
0 |
はい |
7 |
0 |
0 |
はい |
7 |
0 |
0 |
はい |
7 |
0 |
0 |
はい |
6 |
-1 |
1 |
はい |
6 |
-1 |
1 |
はい |
6 |
-1 |
1 |
はい |
6 |
-1 |
1 |
はい |
6 |
-1 |
1 |
はい |
6 |
-1 |
1 |
はい |
5 |
-2 |
4 |
いいえ |
6 |
-1 |
1 |
はい |
5 |
-2 |
4 |
いいえ |
6 |
-1 |
1 |
はい |
5 |
-2 |
4 |
いいえ |
6 |
-1 |
1 |
はい |
5 |
-2 |
4 |
いいえ |
5 |
-2 |
4 |
いいえ |
4 |
-3 |
9 |
いいえ |
5 |
-2 |
4 |
いいえ |
4 |
-3 |
9 |
いいえ |
ここでは、分散と標準偏差を計算するためのプロセスについて学習しました。この単元の後半では、これまでの計算を簡単なシナリオで実習してみましょう。
標本分散
母集団全体のデータがない場合はどうすればよいでしょうか?
母集団の分散の計算と、母集団の標本 (母集団内の部分集合) の分散の計算には違いがあります。どちらの場合も、平均値を計算し、平均値との差を計算し、すべての差を 2 乗して、差の 2 乗を合計します。
前の例で見たように、母分散を計算する場合は、平均からの偏差平方和を母集団の項目数で除算します。たとえば、全母集団の項目数が 20 の場合は、20 で除算します。
ですが、ここで違いがあります。標本分散を計算する場合は、平均からの偏差平方和を、標本 (サンプル) の項目数から 1 を引いた数で除算します。たとえば、母集団の標本 (母集団内の部分集合) の項目数が 20 であれば、19 で除算することになります。この差の目的は、母集団の分散をより偏りなく推定することです。つまり、サンプルサイズ (標本の項目数) - 1 (n-1) で除算することにより、母集団全体ではなく標本 (母集団内の部分集合) で作業していることを補正します。小文字の n は、標本 (サンプル) 内の観測値の数を表します。
例: 分散と標準偏差を計算する
ここでは、もっと項目数の少ない例を使って、分散と標準偏差を求めてみましょう。
家に 5 匹の猫、Cinnamon、The Amazing Fluffy、Lilypad、Danielle、Steve がいるとします。
わかりやすくするために、家の中の猫たちは標本 (サンプル) ではなく、全母集団と考えることにしましょう。それぞれの猫の体重を測定し、結果を下の表のように記録します。
猫の名前 | 体重 (ポンド) |
---|---|
Cinnamon |
7 |
Danielle |
8 |
Lilypad |
9 |
Steve |
12 |
The Amazing Fluffy |
14 |
まず、5 匹の猫の平均体重を計算します。
- すべての体重を合計します。
7 + 8 + 9 + 12 + 14 = 50
- その合計をデータ内の猫の数で除算します。
50/5 = 10
10 ポンドが、この猫グループの平均体重です。
それでは、分散の計算を始めましょう。 - まず、各猫の平均体重との差を計算します。
猫の名前 体重 (ポンド) 平均との差
(10 ポンド)
Cinnamon
7
7 - 10 = (-3)
Danielle
8
8 - 10 = (-2)
Lilypad
9
9 - 10 = (-1)
Steve
12
12 - 10 = 2
The Amazing Fluffy
14
14 - 10 = 4
- 平均との差をそれぞれ 2 乗します。
猫の名前 体重 (ポンド) 平均との差
(10 ポンド)
平均との差の 2 乗値 Cinnamon
7
(-3)
(-3) * (-3) = 9
Danielle
8
(-2)
(-2) * (-2) = 4
Lilypad
9
(-1)
(-1) * (-1) = 1
Steve
12
2
2 * 2 = 4
The Amazing Fluffy
14
4
4 * 4 = 16
- 平均との差の 2 乗値をすべて加算します。
9 + 4 + 1 + 4 + 16 = 34
- この結果をデータポイント (猫) の数で除算します。
34/5 = 6.8 であるため、6.8 が猫グループの分散になります。
- 分散が計算できたところで、分散の平方根を求めて標準偏差を計算します。(電卓を使ってもよいでしょう)。
6.8 の平方根は 2.6 です。つまり、2.6 が標準偏差です。
これで、どの猫の体重が平均 (10 ポンド) の 1 標準偏差 (2.6 ポンド) 以内に収まっているかがわかるようになりました。
猫の名前 | 体重 (ポンド) |
平均との差 (10 ポンド) |
1 標準偏差 (2.6 ポンド) 以内か? |
---|---|---|---|
Cinnamon |
7 |
(-3) |
いいえ |
Danielle |
8 |
(-2) |
はい |
Lilypad |
9 |
(-1) |
はい |
Steve |
12 |
2 |
はい |
The Amazing Fluffy |
14 |
4 |
いいえ |