Medir la varianza
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Definir la varianza y la desviación estándar.
- Calcular la media, la varianza y la desviación estándar.
Cuando observa la distribución de sus datos, ¿tiene datos dispersos? ¿Qué puede averiguar sobre los datos gracias a la dispersión? ¿Qué conclusiones puede sacar? En este módulo, se familiarizará con los conceptos de variación y aprenderá cómo realizar comparaciones informadas o inteligentes, que pueden ayudarle a explorar y entender los datos, y a comunicarse con ellos.
Varianza y desviación estándar
En el módulo Distribuciones de datos, se explicaron la forma (simétrica o sesgada) y el centro (media o mediana) de los datos.
Ahora, exploraremos la varianza, o dispersión, de los datos. La varianza mide cómo los puntos de datos varían de la media, mientras que la desviación estándar es la medida de la distribución de datos estadísticos. Consideremos un ejemplo.
Dos grupos de estudiantes realizaron un examen con un valor de 10 puntos. Ambos grupos obtuvieron puntuaciones promedio de 7, o un 70 %. Sin embargo, las puntuaciones del grupo A oscilan entre 5 y 9 (50 % y 90 %), mientras que las del grupo B lo hacen entre 4 y 10 (40 % y 100 %). Las puntuaciones del grupo B están más dispersas que las del grupo A.
Queremos comprender mejor esta dispersión de los datos. Para hacerlo, medimos la varianza y la desviación estándar mediante los siguientes pasos.
- Compruebe la media. Al observar los datos, vemos que cada grupo está formado por 20 estudiantes. Si calculamos la suma de todas las puntuaciones para cada grupo, se obtiene un total de 140 para el Grupo A y el Grupo B.
Puntuación del Grupo A | Puntuación del Grupo B |
---|---|
9 |
10 |
9 |
10 |
9 |
10 |
8 |
9 |
8 |
9 |
8 |
9 |
8 |
8 |
7 |
8 |
7 |
7 |
7 |
7 |
7 |
7 |
7 | 6 |
6 |
6 |
6 |
6 |
6 |
5 |
6 |
5 |
6 |
5 |
6 |
5 |
5 |
4 |
5 |
4 |
Para calcular la media, se divide el total para cada grupo por el número de estudiantes en el grupo. Para cada grupo, el cálculo es 140/20 y la puntuación media de cada grupo es 7 (o un 70 %).
Grupo A:
9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140
140/20 = 7
Grupo B:
10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140
140/20 = 7
- Para comenzar el cálculo de la varianza se buscan las diferencias.
Ahora que ya hemos calculado la media, podemos empezar a calcular la varianza. La varianza mide cuán dispersos están los datos. Una varianza de cero indica que todos los valores de datos son idénticos. Una varianza alta indica que los puntos de datos están muy separados de la media y entre sí.
Puntuación del Grupo A | La diferencia de la media (7 o un 70 %) | Puntuación del Grupo B | La diferencia de la media (7 o un 70 %) |
---|---|---|---|
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
8 |
1 |
7 |
0 |
8 |
1 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
5 |
-2 |
4 |
-3 |
5 |
-2 |
4 |
-3 |
Para calcular la varianza, sume las diferencias al cuadrado de cada punto de datos respecto de la media y, luego, divida este valor por el número de puntos de datos.
Para comenzar, se calcula la diferencia respecto de la puntuación de la media de 7 para cada estudiante. Por ejemplo, la diferencia entre 9 y 7 es 2 (ya que 9 - 7 = 2) y la diferencia entre 6 y 7 es -1 (ya que 6 - 7 = -1).
- Continuamos con el cálculo de la varianza, así que calcularemos el cuadrado de las diferencias.
Ya calculamos la diferencia respecto de la media para cada estudiante. Ahora, elevemos al cuadrado cada valor. Por ejemplo, la diferencia entre 9 y 7 es 2 (9 - 7 = 2), y el cuadrado de 2 es 4 (ya que 2 x 2 = 4). La diferencia entre 6 y 7 es -1 (ya que 6 - 7 = -1), y el cuadrado de -1 es 1 (ya que -1 x -1 = 1).
Puntuación del Grupo A | La diferencia de la media (7 o un 70 %) | Valor al cuadrado de la diferencia de la media | Puntuación del Grupo B | La diferencia de la media (7 o un 70 %) | Valor al cuadrado de la diferencia de la media |
---|---|---|---|---|---|
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
8 |
1 |
1 |
7 |
0 |
0 |
8 |
1 |
1 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
5 |
-2 |
4 |
4 |
-3 |
9 |
5 |
-2 |
4 |
4 |
-3 |
9 |
- Continuamos con el cálculo de la varianza, así que sumaremos las diferencias.
Ya calculamos la diferencia con la media para cada estudiante y elevamos cada valor al cuadrado. Ahora, sumaremos las diferencias al cuadrado para cada grupo:
Grupo A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
Grupo B:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
- Para finalizar el cálculo de la varianza, calcularemos la media de las diferencias sumadas.
Para conocer la varianza, ahora dividimos los cuadrados sumados para cada grupo por el número total de puntos de datos (estudiantes) en el grupo, o 20.
La varianza para el grupo A es 1,5, mientras que la varianza para el grupo B es 3,9.
Grupo A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
30/20 = 1,5
Grupo B:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
78/20 = 3,9
- Calculemos la desviación estándar.
La desviación estándar permite medir la dispersión de un conjunto de datos en relación con su media, y se calcula como la raíz cuadrada de la varianza. Si los puntos de datos están alejados de la media, hay una desviación mayor dentro del conjunto de datos. En otras palabras, cuanto más dispersos estén los datos, mayor será la desviación estándar.
Ya calculamos la varianza para cada grupo. Para conocer la desviación estándar de cada grupo, calculamos la raíz cuadrada de la varianza.
La desviación estándar para el grupo A es 1,22, mientras que la desviación estándar para el grupo B es 1,97.
Grupo A:
Varianza = 1,5
Raíz cuadrada de 1,5 = 1,22
Grupo B:
Varianza = 3,9
Raíz cuadrada de 3,9 = 1,97
- Revise los datos.
Ahora podemos ver qué puntuaciones de los participantes en el examen están dentro de una desviación estándar respecto de la media en cada grupo. Nota: La diferencia con la media puede ser positiva o negativa.
Puntuación del Grupo A | La diferencia de la media (7 o un 70 %) | Valor al cuadrado de la diferencia de la media | ¿Dentro de una desviación estándar de la media (1,22)? | Puntuación del Grupo B | La diferencia de la media (7 o un 70 %) | Valor al cuadrado de la diferencia de la media | ¿Dentro de una desviación estándar de la media (1,97)? |
---|---|---|---|---|---|---|---|
9 |
2 |
4 |
No |
10 |
3 |
9 |
No |
9 |
2 |
4 |
No |
10 |
3 |
9 |
No |
9 |
2 |
4 |
No |
10 |
3 |
9 |
No |
8 |
1 |
1 |
Sí |
9 |
2 |
4 |
No |
8 |
1 |
1 |
Sí |
9 |
2 |
4 |
No |
8 |
1 |
1 |
Sí |
9 |
2 |
4 |
No |
8 |
1 |
1 |
Sí |
8 |
1 |
1 |
Sí |
7 |
0 |
0 |
Sí |
8 |
1 |
1 |
Sí |
7 |
0 |
0 |
Sí |
7 |
0 |
0 |
Sí |
7 |
0 |
0 |
Sí |
7 |
0 |
0 |
Sí |
7 |
0 |
0 |
Sí |
7 |
0 |
0 |
Sí |
7 |
0 |
0 |
Sí |
6 |
-1 |
1 |
Sí |
6 |
-1 |
1 |
Sí |
6 |
-1 |
1 |
Sí |
6 |
-1 |
1 |
Sí |
6 |
-1 |
1 |
Sí |
6 |
-1 |
1 |
Sí |
5 |
-2 |
4 |
No |
6 |
-1 |
1 |
Sí |
5 |
-2 |
4 |
No |
6 |
-1 |
1 |
Sí |
5 |
-2 |
4 |
No |
6 |
-1 |
1 |
Sí |
5 |
-2 |
4 |
No |
5 |
-2 |
4 |
No |
4 |
-3 |
9 |
No |
5 |
-2 |
4 |
No |
4 |
-3 |
9 |
No |
Ahora, ya sabe cómo calcular la varianza y la desviación estándar. Más adelante en esta unidad, tendrá la oportunidad de realizar estos cálculos en un escenario simple.
Varianza de muestra
¿Qué debe hacer si no tiene datos para toda la población?
Hay una diferencia en el cálculo de la varianza para una población y para una muestra o un subconjunto de una población. En ambos casos, calcule la media y las diferencias de la media, eleve al cuadrado todas las diferencias y sume las diferencias al cuadrado.
Como en el ejemplo anterior, al calcular la varianza de población, debe dividir la suma de las diferencias respecto de la media al cuadrado por el número de elementos en la población. En una población completa de 20, por ejemplo, se divide por 20.
Esta es la diferencia. Al calcular la varianza de una muestra, debe dividir la suma de las diferencias respecto de la media al cuadrado por el número de elementos en la muestra menos uno. En este caso, si la muestra (o subconjunto) tiene 20 elementos en la población, debe dividir el valor total por 19. El propósito de esta diferencia es obtener una estimación menos sesgada de la varianza de la población. En otras palabras, al dividir por el tamaño de la muestra menos uno (n-1), se compensa el hecho de que está trabajando con una muestra en lugar de toda la población. La n pequeña representa el número de observaciones en una muestra.
Ejemplo: Calcular la varianza y la desviación estándar
Ahora, siga los pasos para determinar la varianza y la desviación estándar en este ejemplo con menos valores.
Imagine que tiene cinco gatos en su hogar, Cinnamon, The Amazing Fluffy, Lilypad, Danielle y Steve.
Para simplificar el proceso, consideraremos que los gatos son la población completa y no una muestra. Tras pesar a cada uno de los gatos, registra los resultados en la siguiente tabla.
Nombre del gato | Peso en libras |
---|---|
Cinnamon |
7 |
Danielle |
8 |
Lilypad |
9 |
Steve |
12 |
The Amazing Fluffy |
14 |
Primero, calcule el peso medio (o promedio) de los cinco gatos.
- Sume todos los pesos:
7 + 8 + 9 + 12 + 14 = 50
- Luego, divida el total por la cantidad de gatos:
50/5 = 10
10 libras es el peso medio para este grupo de gatos.
Ahora, es momento de calcular la varianza. - Primero, calcule la diferencia respecto de la media para cada gato:
Nombre del gato Peso (en libras) Diferencia de la media
(10 libras)
Cinnamon
7
7 - 10 = (-3)
Danielle
8
8 - 10 = (-2)
Lilypad
9
9 - 10 = (-1)
Steve
12
12 - 10 = 2
The Amazing Fluffy
14
14 - 10 = 4
- Ahora, calcule el cuadrado de cada diferencia.
Nombre del gato Peso (en libras) Diferencia de la media
(10 libras)
Valor al cuadrado de la diferencia de la media Cinnamon
7
(-3)
(-3) * (-3) = 9
Danielle
8
(-2)
(-2) * (-2) = 4
Lilypad
9
(-1)
(-1) * (-1) = 1
Steve
12
2
2 * 2 = 4
The Amazing Fluffy
14
4
4 * 4 = 16
- A continuación, sume todos los valores al cuadrado de las diferencias respecto de la media:
9 + 4 + 1 + 4 + 16 = 34
- Luego, divida el resultado por la cantidad de puntos de datos (o gatos):
34/5 = 6.8. Por lo tanto, 6,8 es la varianza para los gatos.
- Ahora que conoce la varianza, obtenga la desviación estándar calculando la raíz cuadrada de la varianza. (Puede usar una calculadora para hacer esto).
La raíz cuadrada de 6,8 es 2,6. Por lo tanto, 2,6 es la desviación estándar.
Ahora puede saber qué pesos de los gatos se encuentran dentro de una desviación estándar (2,6 libras) respecto de la media (10 libras):
Nombre del gato | Peso (en libras) |
Diferencia de la media (10 libras) |
¿Dentro de una desviación estándar (2,6 libras)? |
---|---|---|---|
Cinnamon |
7 |
(-3) |
No |
Danielle |
8 |
(-2) |
Sí |
Lilypad |
9 |
(-1) |
Sí |
Steve |
12 |
2 |
Sí |
The Amazing Fluffy |
14 |
4 |
No |