분산 측정
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 분산 및 표준 편차를 정의할 수 있습니다.
- 평균, 분산 및 표준 편차를 계산할 수 있습니다.
데이터의 분포를 볼 때 분산되어 있는 데이터가 있나요? 확산이 데이터에 대해 무엇을 알려줄 수 있으며, 어떤 결론을 도출할 수 있습니까? 이 모듈에서는 데이터를 탐색, 이해 및 통신하는 데 도움이 되는 변수 개념과 정보에 기반한 또는 현명한 비교 개념을 숙지합니다.
분산 및 표준 편차
데이터 분포 모듈은 데이터의 모양(대칭 또는 왜곡)과 중심(평균 또는 중위수)에 대해 다룹니다.
이제 데이터의 분산 또는 확산에 대해 살펴보겠습니다. 분산은 데이터 지점이 평균과 어떻게 다른지를 측정하는 반면, 표준 편차는 통계 데이터의 분포를 측정합니다. 예를 들어보겠습니다.
두 그룹의 학생들은 각각 10점 상당의 퀴즈를 풀었습니다. 두 그룹 모두 평균 퀴즈 점수가 7 또는 70% 로 나타났습니다. 하지만 A그룹의 퀴즈 점수는 5 ~ 9점(50% ~ 90%), B그룹의 퀴즈 점수는 4 ~ 10점(40% ~ 100%)입니다. 그룹 B의 점수는 그룹 A보다 더 넓게 퍼져 있습니다.
데이터의 확산에 대해 더 자세히 알아보고자 합니다. 이를 위해 다음 단계를 사용하여 분산 및 표준 편차를 측정합니다.
- 평균을 확인합니다. 데이터를 확인할 경우 각 그룹에는 20명의 퀴즈 응시자가 있다는 것을 알 수 있습니다. 각 그룹의 모든 점수 합계를 계산하면 A그룹과 B그룹 모두 총 140점이 나옵니다.
그룹 A 퀴즈 점수 | 그룹 B 퀴즈 점수 |
---|---|
9 |
10 |
9 |
10 |
9 |
10 |
8 |
9 |
8 |
9 |
8 |
9 |
8 |
8 |
7 |
8 |
7 |
7 |
7 |
7 |
7 |
7 |
7 | 6 |
6 |
6 |
6 |
6 |
6 |
5 |
6 |
5 |
6 |
5 |
6 |
5 |
5 |
4 |
5 |
4 |
평균을 계산하기 위해 각 그룹의 총계를 그룹 내 퀴즈 참여자 수로 나눕니다. 각 그룹에 대해, 방정식은 140/20이고, 각 그룹에 대한 평균 점수는 7(또는 70%)입니다.
그룹 A:
9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140
140/20 = 7
그룹 B:
10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140
140/20 = 7
- 차이를 찾아 분산을 계산하기 시작합니다.
이제 평균을 계산했으므로 분산을 계산할 수 있습니다. 분산은 데이터가 어떻게 분산되는지를 측정합니다. 0의 분산은 모든 데이터 값이 동일하다는 것을 나타냅니다. 높은 분산은 데이터 지점이 평균 및 서로 간에 매우 넓게 분산되어 있다는 것을 나타냅니다.
그룹 A 퀴즈 점수 | 평균(7 또는 70%)과의 차이 | 그룹 B 퀴즈 점수 | 평균(7 또는 70%)과의 차이 |
---|---|---|---|
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
8 |
1 |
7 |
0 |
8 |
1 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
5 |
-2 |
4 |
-3 |
5 |
-2 |
4 |
-3 |
분산을 계산하려면 평균에서 각 데이터 지점의 제곱 거리를 더한 다음 데이터 지점 수로 나눕니다.
먼저 각 퀴즈 응시자의 평균 점수 7과의 차이를 계산해 보겠습니다. 예를 들어, 9와 7의 차이는 2이고(9 - 7 = 2) 6과 7의 차이는 -1(6 - 7 = -1)입니다.
- 차이를 제곱하여 분산 계산을 계속합니다.
각 퀴즈 응시자의 평균과의 차이를 계산했습니다. 이제 각 차이의 제곱을 해 보겠습니다. 예를 들어 9와 7의 차는 2(9 - 7 = 2)이고, 2의 제곱은 4(2 * 2 = 4)입니다. 6과 7의 차이는 -1(6 - 7 = -1)이고, -1의 제곱은 1(-1 * -1 = 1)입니다.
그룹 A 퀴즈 점수 | 평균(7 또는 70%)과의 차이 | 평균과 차이의 제곱 값 | 그룹 B 퀴즈 점수 | 평균(7 또는 70%)과의 차이 | 평균과 차이의 제곱 값 |
---|---|---|---|---|---|
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
8 |
1 |
1 |
7 |
0 |
0 |
8 |
1 |
1 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
5 |
-2 |
4 |
4 |
-3 |
9 |
5 |
-2 |
4 |
4 |
-3 |
9 |
- 차이를 합산하여 분산 계산을 계속합니다.
각 퀴즈 참여자의 평균에서 차이를 계산하고 각 차이를 제곱했습니다. 이제 각 그룹에 대한 제곱 차이의 합을 구할 경우 다음과 같습니다.
그룹 A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
그룹 B
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
- 합산된 차이를 평균화하여 분산 계산을 완료합니다.
분산을 찾으려면 각 그룹에 대한 합계를 그룹의 총 데이터 지점(퀴즈 응시자) 수(20)로 나눕니다.
그룹 A의 분산은 1.5이고, 그룹 B의 분산은 3.9입니다.
그룹 A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
30/20 = 1.5
그룹 B
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
78/20 = 3.9
- 표준 편차를 계산합니다.
표준 편차는 평균에 대한 데이터 집합의 분산을 측정하고 분산의 제곱근으로 계산됩니다. 데이터 지점이 평균으로부터 더 멀리 있는 경우 데이터 집합 내에서 더 높은 편차가 있습니다. 다시 말해, 데이터가 더 많이 분산되어 있을수록 표준 편차가 더 커집니다.
각 그룹에 대한 분산이 계산되었습니다. 각 그룹에 대한 표준 편차를 찾기 위해 분산의 제곱근을 계산합니다.
그룹 A의 표준 편차는 1.22이고, 그룹 B의 표준 편차는 1.97입니다.
그룹 A:
분산 = 1.5
1.5의 제곱근 = 1.22
그룹 B
분산 = 3.9
3.9의 제곱근 = 1.97
- 데이터로 다시 돌아갑니다.
이제 각 그룹의 평균에서 하나의 표준 편차 내에 있는 퀴즈 응시자의 점수를 보여줄 수 있습니다. (평균과의 차이는 양수 또는 음수일 수 있습니다.)
그룹 A 퀴즈 점수 | 평균(7 또는 70%)과의 차이 | 평균과 차이의 제곱 값 | 평균(1.22)에서 1 표준 편차 이내인가요? | 그룹 B 퀴즈 점수 | 평균(7 또는 70%)과의 차이 | 평균과 차이의 제곱 값 | 평균(1.97)에서 1 표준 편차 이내인가요? |
---|---|---|---|---|---|---|---|
9 |
2 |
4 |
아니요 |
10 |
3 |
9 |
아니요 |
9 |
2 |
4 |
아니요 |
10 |
3 |
9 |
아니요 |
9 |
2 |
4 |
아니요 |
10 |
3 |
9 |
아니요 |
8 |
1 |
1 |
예 |
9 |
2 |
4 |
아니요 |
8 |
1 |
1 |
예 |
9 |
2 |
4 |
아니요 |
8 |
1 |
1 |
예 |
9 |
2 |
4 |
아니요 |
8 |
1 |
1 |
예 |
8 |
1 |
1 |
예 |
7 |
0 |
0 |
예 |
8 |
1 |
1 |
예 |
7 |
0 |
0 |
예 |
7 |
0 |
0 |
예 |
7 |
0 |
0 |
예 |
7 |
0 |
0 |
예 |
7 |
0 |
0 |
예 |
7 |
0 |
0 |
예 |
7 |
0 |
0 |
예 |
6 |
-1 |
1 |
예 |
6 |
-1 |
1 |
예 |
6 |
-1 |
1 |
예 |
6 |
-1 |
1 |
예 |
6 |
-1 |
1 |
예 |
6 |
-1 |
1 |
예 |
5 |
-2 |
4 |
아니요 |
6 |
-1 |
1 |
예 |
5 |
-2 |
4 |
아니요 |
6 |
-1 |
1 |
예 |
5 |
-2 |
4 |
아니요 |
6 |
-1 |
1 |
예 |
5 |
-2 |
4 |
아니요 |
5 |
-2 |
4 |
아니요 |
4 |
-3 |
9 |
아니요 |
5 |
-2 |
4 |
아니요 |
4 |
-3 |
9 |
아니요 |
분산과 표준 편차를 계산하는 과정을 살펴봤습니다. 이 유닛의 후반부에서 간단한 시나리오로 이 계산을 수행할 수 있습니다.
표본 분산
전체 인구에 대한 데이터가 없는 경우 어떻게 해야 하나요?
모집단과 모집단의 표본 또는 하위 집합에 대한 분산 계산에 차이가 있습니다. 두 경우 모두 평균을 계산한 다음 평균의 차이를 계산하고 모든 차이를 제곱한 다음 제곱한 차이를 합합니다.
이전 예와 같이 모집단 분산을 계산할 때 평균에서 제곱한 편차의 합을 모집단의 항목 수로 나눕니다. 예를 들어 20명의 전체 인구에서 20으로 나눕니다.
자, 여기 차이가 있습니다. 표본 분산을 계산할 때, 평균으로부터의 제곱 편차의 합을 표본의 항목 수에서 1을 뺀 값으로 나눕니다. 이 경우 모집단의 표본(또는 하위 집합)에 20개의 항목이 있는 경우 19로 나눕니다. 이 차이의 목적은 모집단의 분산에 대한 편향된 추정치를 구하는 것입니다. 즉 표본 크기 빼기 1(N-1)로 나누면 모집단 전체가 아닌 표본으로 작업한 항목이 상쇄됩니다. 작은 n은 표본에서 관찰된 수를 나타냅니다.
예: 분산 및 표준 편차 계산
숫자가 적은 예시를 사용하여 분산과 표준 편차를 결정합니다.
집에 Cinnamon, The Amazing Fluffy, Lilypad, Danielle, Steve라는 고양이 다섯 마리가 있다고 상상해 보세요.
즉, 집에 있는 고양이들을 표본이 아닌 완전한 개체군으로 간주해 봅니다. 각 고양이의 체중을 측정하고 다음 표에 표시된 대로 결과를 기록합니다.
고양이 이름 | 무게(파운드) |
---|---|
Cinnamon |
7 |
Danielle |
8 |
Lilypad |
9 |
Steve |
12 |
The Amazing Fluffy |
14 |
먼저 고양이 다섯 마리의 평균(또는 평균값) 체중을 계산합니다.
- 모든 체중을 더하세요:
7 + 8 + 9 + 12 + 14 = 50
- 그리고 체중의 총합을 데이터의 고양이 수로 나눕니다.
50/5 = 10
10 파운드 는 이 고양이 그룹의 평균 체중입니다.
이제 분산을 계산해 보겠습니다. - 먼저, 각 고양이에 대한 평균 체중과의 차이를 계산합니다.
고양이 이름 무게(파운드) 평균과의 차이
(10파운드)
Cinnamon
7
7 - 10 =(-3)
Danielle
8
8 - 10 =(-2)
Lilypad
9
9 - 10 = (-1)
Steve
12
12 - 10 = 2
The Amazing Fluffy
14
14 - 10 = 4
- 이제, 평균에서 각 차이를 제곱합니다.
고양이 이름 무게(파운드) 평균과의 차이
(10파운드)
평균과 차이의 제곱 값 Cinnamon
7
(-3)
(-3) *(-3) = 9
Danielle
8
(-2)
(-2) *(-2) = 4
Lilypad
9
(-1)
(-1) *(-1) = 1
Steve
12
2
2 * 2 = 4
The Amazing Fluffy
14
4
4 * 4 = 16
- 다음으로 평균과의 차이에 대한 제곱 값을 모두 더합니다.
9 + 4 + 1 + 4 + 16 = 34
- 그런 다음 결과를 데이터 지점(또는 CATS)의 수로 나눕니다. 34/5
= 6.8. 6.8은 고양이의 변량입니다
- 분산을 계산했으므로 분산의 제곱근을 찾아 표준 편차를 계산해 보겠습니다. (계산기를 이용해 계산할 수 있습니다.) 6.8의
제곱근은 2.6입니다. 2.6은 표준편차로, 평균(10파운드)의 표준 편차(2.6파운드) 내에 있는 고양이의 체중을
확인할 수 있습니다.
고양이 이름 | 무게(파운드) |
평균과의 차이 (10파운드) |
하나의 표준 편차(2.6파운드) 이내인가요? |
---|---|---|---|
Cinnamon |
7 |
(-3) |
아니요 |
Danielle |
8 |
(-2) |
예 |
Lilypad |
9 |
(-1) |
예 |
Steve |
12 |
2 |
예 |
The Amazing Fluffy |
14 |
4 |
아니요 |