Medir la varianza

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Definir la varianza y la desviación estándar.
Calcular la media, la varianza y la desviación estándar.

Cuando observa la distribución de sus datos, ¿tiene datos dispersos? ¿Qué puede averiguar sobre los datos gracias a la dispersión? ¿Qué conclusiones puede sacar? En este módulo, se familiarizará con los conceptos de variación y aprenderá cómo realizar comparaciones informadas o inteligentes, que pueden ayudarle a explorar y entender los datos, y a comunicarse con ellos.

Varianza y desviación estándar

En el módulo Distribuciones de datos, se explicaron la forma (simétrica o sesgada) y el centro (media o mediana) de los datos.

Ahora, exploraremos la varianza, o dispersión, de los datos. La varianza mide cómo los puntos de datos varían de la media, mientras que la desviación estándar es la medida de la distribución de datos estadísticos. Consideremos un ejemplo.

Dos grupos de estudiantes realizaron un examen con un valor de 10 puntos. Ambos grupos obtuvieron puntuaciones promedio de 7, o un 70 %. Sin embargo, las puntuaciones del grupo A oscilan entre 5 y 9 (50 % y 90 %), mientras que las del grupo B lo hacen entre 4 y 10 (40 % y 100 %). Las puntuaciones del grupo B están más dispersas que las del grupo A.

Queremos comprender mejor esta dispersión de los datos. Para hacerlo, medimos la varianza y la desviación estándar mediante los siguientes pasos.

Comprobar la media

Al observar los datos, vemos que cada grupo está formado por 20 estudiantes.

Puntuación del Grupo A	Puntuación del Grupo B
9	10
9	10
9	10
8	9
8	9
8	9
8	8
7	8
7	7
7	7
7	7
7	6
6	6
6	6
6	5
6	5
6	5
6	5
5	4
5	4

Para calcular la media, se divide el total para cada grupo por el número de estudiantes en el grupo. Para cada grupo, el cálculo es 140/20 y la puntuación media de cada grupo es 7 (o un 70 %).

Grupo A:

9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140

140/20 = 7

Grupo B:

10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140

140/20 = 7

Para comenzar el cálculo de la varianza, se buscan las diferencias

Ahora que ya hemos calculado la media, podemos empezar a calcular la varianza. La varianza mide cuán dispersos están los datos. Una varianza de cero indica que todos los valores de datos son idénticos. Una varianza alta indica que los puntos de datos están muy separados de la media y entre sí.

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)
9	2	10	3
9	2	10	3
9	2	10	3
8	1	9	2
8	1	9	2
8	1	9	2
8	1	8	1
7	0	8	1
7	0	7	0
7	0	7	0
7	0	7	0
7	0	6	-1
6	-1	6	-1
6	-1	6	-1
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
5	-2	4	-3
5	-2	4	-3

Para calcular la varianza, sume las diferencias al cuadrado de cada punto de datos respecto de la media y, luego, divida este valor por el número de puntos de datos.

Para comenzar, se calcula la diferencia respecto de la puntuación de la media de 7 para cada estudiante. Por ejemplo, la diferencia entre 9 y 7 es 2 (ya que 9 - 7 = 2) y la diferencia entre 6 y 7 es -1 (ya que 6 - 7 = -1).

Para continuar con el cálculo de la varianza, se elevan al cuadrado las diferencias

Ya calculamos la diferencia respecto de la media para cada estudiante. Ahora, elevemos al cuadrado cada valor. Por ejemplo, la diferencia entre 9 y 7 es 2 (9 - 7 = 2), y el cuadrado de 2 es 4 (ya que 2 x 2 = 4). La diferencia entre 6 y 7 es -1 (ya que 6 - 7 = -1), y el cuadrado de -1 es 1 (ya que -1 x -1 = 1).

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media
9	2	4	10	3	9
9	2	4	10	3	9
9	2	4	10	3	9
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	8	1	1
7	0	0	8	1	1
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	6	-1	1
6	-1	1	6	-1	1
6	-1	1	6	-1	1
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
5	-2	4	4	-3	9
5	-2	4	4	-3	9

Para continuar con el cálculo de la varianza, se suman las diferencias

Ya calculamos la diferencia con la media para cada estudiante y elevamos cada valor al cuadrado. Ahora, sumaremos las diferencias al cuadrado para cada grupo:

Grupo A:

4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30

Grupo B:

9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78

Para finalizar el cálculo de la varianza, se calcula la media de las diferencias sumadas

Para conocer la varianza, ahora dividimos los cuadrados sumados para cada grupo por el número total de puntos de datos (estudiantes) en el grupo, o 20.

La varianza para el grupo A es 1,5, mientras que la varianza para el grupo B es 3,9.

Grupo A:

4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30

30/20 = 1.5

Grupo B:

9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78

78/20 = 3.9

Calcular la desviación estándar

La desviación estándar permite medir la dispersión de un conjunto de datos en relación con su media, y se calcula como la raíz cuadrada de la varianza. Si los puntos de datos están alejados de la media, hay una desviación mayor dentro del conjunto de datos. En otras palabras, cuanto más dispersos estén los datos, mayor será la desviación estándar.

Ya calculamos la varianza para cada grupo. Para conocer la desviación estándar de cada grupo, calculamos la raíz cuadrada de la varianza.

La desviación estándar para el grupo A es 1,22, mientras que la desviación estándar para el grupo B es 1,97.

Grupo A:

Varianza = 1,5

Raíz cuadrada de 1,5 = 1,22

Grupo B:

Varianza = 3,9

Raíz cuadrada de 3,9 = 1,97

Revisar los datos

Ahora podemos ver qué puntuaciones de los participantes en el examen están dentro de una desviación estándar respecto de la media en cada grupo. Nota: La diferencia con la media puede ser positiva o negativa.

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,22)?	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,97)?
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	8	1	1	Sí
7	0	0	Sí	8	1	1	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
5	-2	4	No	4	-3	9	No
5	-2	4	No	4	-3	9	No

Ahora, ya sabe cómo calcular la varianza y la desviación estándar. Más adelante en esta unidad, tendrá la oportunidad de realizar estos cálculos en un escenario simple.

Varianza de muestra

¿Qué debe hacer si no tiene datos para toda la población?

Hay una diferencia en el cálculo de la varianza para una población y para una muestra o un subconjunto de una población. En ambos casos, calcule la media y las diferencias de la media, eleve al cuadrado todas las diferencias y sume las diferencias al cuadrado.

Como en el ejemplo anterior, al calcular la varianza de población, debe dividir la suma de las diferencias respecto de la media al cuadrado por el número de elementos en la población. En una población completa de 20, por ejemplo, se divide por 20.

Esta es la diferencia. Al calcular la varianza de una muestra, debe dividir la suma de las diferencias respecto de la media al cuadrado por el número de elementos en la muestra menos uno. En este caso, si la muestra (o subconjunto) tiene 20 elementos en la población, debe dividir el valor total por 19. El propósito de esta diferencia es obtener una estimación menos sesgada de la varianza de la población. En otras palabras, al dividir por el tamaño de la muestra menos uno (n-1), se compensa el hecho de que está trabajando con una muestra en lugar de toda la población. La n pequeña representa el número de observaciones en una muestra. Ecuación n - 1

Ejemplo: Calcular la varianza y la desviación estándar

Ahora, siga los pasos para determinar la varianza y la desviación estándar en este ejemplo con menos valores.

Imagine que tiene cinco gatos en su hogar, Cinnamon, The Amazing Fluffy, Lilypad, Danielle y Steve. Cinco gatos fotografiados de espaldas, mirando por la ventana

Para simplificar el proceso, consideraremos que los gatos son la población completa y no una muestra. Tras pesar a cada uno de los gatos, registra los resultados en la siguiente tabla.

Nombre del gato	Peso en libras
Cinnamon	7
Danielle	8
Lilypad	9
Steve	12
The Amazing Fluffy	14

Primero, calcule el peso medio (o promedio) de los cinco gatos.

Sume todos los pesos:
7 + 8 + 9 + 12 + 14 = 50
Luego, divida ese total por la cantidad de gatos en los datos:
50/5 = 10
10 libras es el peso medio para este grupo de gatos.

Ahora, empiece a calcular la varianza.

Primero, calcule la diferencia respecto de la media para cada gato:

Nombre del gato	Peso (en libras)	La diferencia de la media (10 libras)
Cinnamon	7	7 - 10 = (-3)
Danielle	8	8 - 10 = (-2)
Lilypad	9	9 - 10 = (-1)
Steve	12	12 - 10 = 2
The Amazing Fluffy	14	14 - 10 = 4

Ahora, calcule el cuadrado de cada diferencia.

Nombre del gato	Peso (en libras)	La diferencia de la media (10 libras)	Valor al cuadrado de la diferencia de la media
Cinnamon	7	(-3)	(-3) * (-3) = 9
Danielle	8	(-2)	(-2) * (-2) = 4
Lilypad	9	(-1)	(-1) * (-1) = 1
Steve	12	2	2 * 2 = 4
The Amazing Fluffy	14	4	4 * 4 = 16

A continuación, sume todos los valores al cuadrado de las diferencias respecto de la media:
9 + 4 + 1 + 4 + 16 = 34
Luego, divida el resultado por la cantidad de puntos de datos (o gatos):
34/5 = 6.8. Por lo tanto, 6,8 es la varianza para los gatos.
Ahora que conoce la varianza, obtenga la desviación estándar calculando la raíz cuadrada de la varianza. (Puede usar una calculadora para hacer esto).
La raíz cuadrada de 6,8 es 2,6. Por lo tanto, 2,6 es la desviación estándar.
Ahora puede ver qué pesos de los gatos se encuentran dentro de una desviación estándar (2,6 libras) respecto de la media (10 libras):

Nombre del gato	Peso (en libras)	Diferencia de la media (10 libras)	¿Dentro de una desviación estándar (2,6 libras)?
Cinnamon	7	(-3)	No
Danielle	8	(-2)	Sí
Lilypad	9	(-1)	Sí
Steve	12	2	Sí
The Amazing Fluffy	14	4	No

Recursos

Sitio web: Introducción a la estadística (en inglés) de David M. Lane, disponible para el público en línea

Estimación de tiempo

Temas

¿Necesita ayuda?

Recursos de Tableau

Medir la varianza

Objetivos de aprendizaje

Varianza y desviación estándar

Comprobar la media

Para comenzar el cálculo de la varianza, se buscan las diferencias

Para continuar con el cálculo de la varianza, se elevan al cuadrado las diferencias

Para continuar con el cálculo de la varianza, se suman las diferencias

Para finalizar el cálculo de la varianza, se calcula la media de las diferencias sumadas

Calcular la desviación estándar

Revisar los datos

Ejemplo: Calcular la varianza y la desviación estándar

Recursos

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)
9	2	10	3
9	2	10	3
9	2	10	3
8	1	9	2
8	1	9	2
8	1	9	2
8	1	8	1
7	0	8	1
7	0	7	0
7	0	7	0
7	0	7	0
7	0	6	-1
6	-1	6	-1
6	-1	6	-1
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
5	-2	4	-3
5	-2	4	-3

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media
9	2	4	10	3	9
9	2	4	10	3	9
9	2	4	10	3	9
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	8	1	1
7	0	0	8	1	1
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	6	-1	1
6	-1	1	6	-1	1
6	-1	1	6	-1	1
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
5	-2	4	4	-3	9
5	-2	4	4	-3	9

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,22)?	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,97)?
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	8	1	1	Sí
7	0	0	Sí	8	1	1	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
5	-2	4	No	4	-3	9	No
5	-2	4	No	4	-3	9	No

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)
9	2	10	3
9	2	10	3
9	2	10	3
8	1	9	2
8	1	9	2
8	1	9	2
8	1	8	1
7	0	8	1
7	0	7	0
7	0	7	0
7	0	7	0
7	0	6	-1
6	-1	6	-1
6	-1	6	-1
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
5	-2	4	-3
5	-2	4	-3

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media
9	2	4	10	3	9
9	2	4	10	3	9
9	2	4	10	3	9
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	8	1	1
7	0	0	8	1	1
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	6	-1	1
6	-1	1	6	-1	1
6	-1	1	6	-1	1
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
5	-2	4	4	-3	9
5	-2	4	4	-3	9

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,22)?	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,97)?
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	8	1	1	Sí
7	0	0	Sí	8	1	1	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
5	-2	4	No	4	-3	9	No
5	-2	4	No	4	-3	9	No

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)
9	2	10	3
9	2	10	3
9	2	10	3
8	1	9	2
8	1	9	2
8	1	9	2
8	1	8	1
7	0	8	1
7	0	7	0
7	0	7	0
7	0	7	0
7	0	6	-1
6	-1	6	-1
6	-1	6	-1
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
6	-1	5	-2
5	-2	4	-3
5	-2	4	-3

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media
9	2	4	10	3	9
9	2	4	10	3	9
9	2	4	10	3	9
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	9	2	4
8	1	1	8	1	1
7	0	0	8	1	1
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	7	0	0
7	0	0	6	-1	1
6	-1	1	6	-1	1
6	-1	1	6	-1	1
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
6	-1	1	5	-2	4
5	-2	4	4	-3	9
5	-2	4	4	-3	9

Puntuación del Grupo A	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,22)?	Puntuación del Grupo B	La diferencia de la media (7 o un 70 %)	Valor al cuadrado de la diferencia de la media	¿Dentro de una desviación estándar de la media (1,97)?
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
9	2	4	No	10	3	9	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	9	2	4	No
8	1	1	Sí	8	1	1	Sí
7	0	0	Sí	8	1	1	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	7	0	0	Sí
7	0	0	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	6	-1	1	Sí
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
6	-1	1	Sí	5	-2	4	No
5	-2	4	No	4	-3	9	No
5	-2	4	No	4	-3	9	No