Skip to main content
Únase a nosotros en TDX, en San Francisco, o en Salesforce+ los días 5 y 6 de marzo en la conferencia para desarrolladores sobre la era de agentes de IA. Registrarse ahora.

Medir la varianza

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Definir la varianza y la desviación estándar.
  • Calcular la media, la varianza y la desviación estándar.

Cuando observa la distribución de sus datos, ¿tiene datos dispersos? ¿Qué puede averiguar sobre los datos gracias a la dispersión? ¿Qué conclusiones puede sacar? En este módulo, se familiarizará con los conceptos de variación y aprenderá a realizar comparaciones fundamentadas o inteligentes, que pueden ayudarle a explorar y entender los datos, y a comunicarse con ellos. 

Varianza y desviación estándar

En el módulo Distribuciones de datos, se explicaron la forma (simétrica o sesgada) y el centro (media o mediana) de los datos. 

Ahora, vamos a ver la varianza, o dispersión, de los datos. La varianza mide cómo los puntos de datos varían de la media, mientras que la desviación estándar es la medida de la distribución de datos estadísticos. Veamos un ejemplo.

Dos grupos de estudiantes realizaron un examen con un valor de 10 puntos. Ambos grupos obtuvieron una media de puntuación de 7, o un 70 %. Sin embargo, las puntuaciones del grupo A oscilan entre 5 y 9 (50 % y 90 %), mientras que las del grupo B lo hacen entre 4 y 10 (40 % y 100 %). Las puntuaciones del grupo B están más dispersas que las del grupo A.

Queremos comprender mejor esta dispersión de los datos. Para hacerlo, medimos la varianza y la desviación estándar mediante los siguientes pasos.

  • Compruebe la media. Al observar los datos, vemos que cada grupo está formado por 20 estudiantes. Si calculamos la suma de todas las puntuaciones para cada grupo, se obtiene un total de 140 para el Grupo A y el Grupo B.
Puntuación del grupo A Puntuación del grupo B

9

10

9

10

9

10

8

9

8

9

8

9

8

8

7

8

7

7

7

7

7

7

7 6

6

6

6

6

6

5

6

5

6

5

6

5

5

4

5

4

Para calcular la media, se divide el total para cada grupo por el número de estudiantes en el grupo. Para cada grupo, el cálculo es 140/20 y la puntuación media de cada grupo es 7 (o un 70 %).
Grupo A: 
9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140
140/20 = 7

Grupo B:
10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140
140/20 = 7

  • Comience el cálculo de la varianza mediante la detección de las diferencias.

Ahora que ya hemos calculado la media, podemos empezar a calcular la varianza. La varianza mide el nivel de dispersión de los datos. Una varianza de cero indica que todos los valores de datos son idénticos. Una varianza alta indica que los puntos de datos están muy separados de la media y entre sí.

Puntuación del grupo A Diferencia de la media (7, o 70 %) Puntuación del grupo B Diferencia de la media (7, o 70 %)

9

2

10

3

9

2

10

3

9

2

10

3

8

1

9

2

8

1

9

2

8

1

9

2

8

1

8

1

7

0

8

1

7

0

7

0

7

0

7

0

7

0

7

0

7

0

6

-1

6

-1

6

-1

6

-1

6

-1

6

-1

5

-2

6

-1

5

-2

6

-1

5

-2

6

-1

5

-2

5

-2

4

-3

5

-2

4

-3

Para calcular la varianza, sume las distancias al cuadrado de cada punto de datos respecto con respecto a la media y, después, divida este valor por el número de puntos de datos.

Para comenzar, vamos a calcular la diferencia con respecto a la puntuación de la media de 7 para cada estudiante. Por ejemplo, la diferencia entre 9 y 7 es 2 (ya que 9 - 7 = 2) y la diferencia entre 6 y 7 es -1 (ya que 6 - 7 = -1).

  • Continúe con el cálculo de la varianza elevando al cuadrado las diferencias.

Hemos calculado la diferencia con respecto a la media para cada estudiante. Ahora, vamos a elevar al cuadrado cada valor. Por ejemplo, la diferencia entre 9 y 7 es 2 (9 - 7 = 2), y el cuadrado de 2 es 4 (ya que 2 x 2 = 4). La diferencia entre 6 y 7 es -1 (ya que 6 - 7 = -1), y el cuadrado de -1 es 1 (ya que -1 x -1 = 1).

Puntuación del grupo A Diferencia de la media (7, o 70 %) Valor al cuadrado de la diferencia de la media Puntuación del grupo B Diferencia de la media (7, o 70 %) Valor al cuadrado de la diferencia de la media

9

2

4

10

3

9

9

2

4

10

3

9

9

2

4

10

3

9

8

1

1

9

2

4

8

1

1

9

2

4

8

1

1

9

2

4

8

1

1

8

1

1

7

0

0

8

1

1

7

0

0

7

0

0

7

0

0

7

0

0

7

0

0

7

0

0

7

0

0

6

-1

1

6

-1

1

6

-1

1

6

-1

1

6

-1

1

6

-1

1

5

-2

4

6

-1

1

5

-2

4

6

-1

1

5

-2

4

6

-1

1

5

-2

4

5

-2

4

4

-3

9

5

-2

4

4

-3

9

  • Continúe con el cálculo de la varianza sumando las diferencias.

Hemos calculado la diferencia con respecto a la media para cada estudiante y hemos elevado al cuadrado las diferencias. Ahora, vamos a sumar las diferencias al cuadrado para cada grupo:

Grupo A 

4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30

Grupo B:

9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78

  • Finalice el cálculo de la varianza mediante el cálculo de la media de la suma de las diferencias.

Para averiguar la varianza, dividimos los cuadrados sumados para cada grupo por el número total de puntos de datos (estudiantes) en el grupo, o 20. 

La varianza para el grupo A es 1,5, mientras que la varianza para el grupo B es 3,9.

Grupo A 

4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30

30/20 = 1,5

Grupo B:

9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78

78/20 = 3,9

  • Calcule la desviación estándar.

La desviación estándar permite medir la dispersión de un conjunto de datos en relación con su media, y se calcula como la raíz cuadrada de la varianza. Si los puntos de datos están alejados de la media, habrá una desviación mayor dentro del conjunto de datos. En otras palabras, cuanto más dispersos estén los datos, mayor será la desviación estándar.

Ya hemos calculado la varianza para cada grupo. Para conocer la desviación estándar de cada grupo, calcularemos la raíz cuadrada de la varianza. 

La desviación estándar para el grupo A es 1,22, mientras que la desviación estándar para el grupo B es 1,97.

Grupo A 

Varianza = 1,5

Raíz cuadrada de 1,5 = 1,22

Grupo B:

Varianza = 3,9

Raíz cuadrada de 3,9 = 1,97

  • Revise los datos.

Ahora podemos ver qué puntuaciones de los participantes en el examen están dentro de una desviación estándar con respecto a la media en cada grupo. (La diferencia con la media puede ser positiva o negativa).

Puntuación del grupo A Diferencia de la media (7, o 70 %) Valor al cuadrado de la diferencia de la media ¿Dentro de una desviación estándar de la media (1,22)? Puntuación del grupo B Diferencia de la media (7, o 70 %) Valor al cuadrado de la diferencia de la media ¿Dentro de una desviación estándar de la media (1,97)?

9

2

4

No

10

3

9

No

9

2

4

No

10

3

9

No

9

2

4

No

10

3

9

No

8

1

1

Sí

9

2

4

No

8

1

1

Sí

9

2

4

No

8

1

1

Sí

9

2

4

No

8

1

1

Sí

8

1

1

Sí

7

0

0

Sí

8

1

1

Sí

7

0

0

Sí

7

0

0

Sí

7

0

0

Sí

7

0

0

Sí

7

0

0

Sí

7

0

0

Sí

7

0

0

Sí

6

-1

1

Sí

6

-1

1

Sí

6

-1

1

Sí

6

-1

1

Sí

6

-1

1

Sí

6

-1

1

Sí

5

-2

4

No

6

-1

1

Sí

5

-2

4

No

6

-1

1

Sí

5

-2

4

No

6

-1

1

Sí

5

-2

4

No

5

-2

4

No

4

-3

9

No

5

-2

4

No

4

-3

9

No

Ahora, ya conoce el proceso para calcular la varianza y la desviación estándar. Más adelante en esta unidad, tendrá la oportunidad de realizar estos cálculos en un escenario sencillo.

Varianza de muestra

¿Qué debe hacer si no tiene datos para toda la población?

Hay una diferencia en el cálculo de la varianza para una población y para una muestra o subconjunto de una población. En ambos casos, calcule la media y las diferencias con respecto a la misma, eleve al cuadrado todas las diferencias y, a continuación, sume las diferencias al cuadrado.

Como en el ejemplo anterior, al calcular la varianza de población, debe dividir la suma de las diferencias con respecto a la media al cuadrado por el número de elementos en la población. En una población completa de 20, por ejemplo, se divide por 20. 

Esta es la diferencia. Al calcular la varianza de una muestra, debe dividir la suma de las diferencias con respecto a la media al cuadrado por el número de elementos en la muestra menos uno. En este caso, si la muestra (o subconjunto) tiene 20 elementos en la población, debe dividir el valor total por 19. El objetivo de esta diferencia es obtener una estimación menos sesgada de la varianza de la población. En otras palabras, al dividir por el tamaño de la muestra menos uno (n-1), se compensa el hecho de que está trabajando con una muestra en lugar de con toda la población. La n pequeña representa el número de observaciones en una muestra. La ecuación n -1

Ejemplo: calcular la varianza y la desviación estándar

Ahora, siga los pasos para determinar la varianza y la desviación estándar en este ejemplo con menos valores.

Imagine que tiene cinco gatos en su hogar: Cinnamon, The Amazing Fluffy, Lilypad, Danielle y Steve.Cinco gatos de espaldas mirando a través de una ventana

Para simplificar el proceso, vamos a pensar que los gatos son la población completa y no una muestra. Tras pesar a cada uno de los gatos, registra los resultados en la siguiente tabla.

Nombre del gato Peso en libras

Cinnamon

7

Danielle

8

Lilypad

9

Steve

12

The Amazing Fluffy

14

Primero, calcule el peso medio de los cinco gatos.

  1. Sume todos los pesos:  
    7 + 8 + 9 + 12 + 14 = 50
  2. Después, divida el total por el número de gatos:
    50/5 = 10  
    10 libras es el peso medio del grupo de gatos.
    Ahora, calcule la varianza.
  3. Primero, calcule la diferencia con respecto a la media para cada gato:

    Nombre del gato Peso (en libras)

    Diferencia con respecto a la media 

    (10 libras)

    Cinnamon

    7

    7 - 10 = (-3)

    Danielle

    8

    8 - 10 = (-2)

    Lilypad

    9

    9 - 10 = (-1)

    Steve

    12

    12 - 10 = 2

    The Amazing Fluffy

    14

    14 - 10 = 4


  4. Ahora, calcule el cuadrado de cada diferencia.

    Nombre del gato Peso (en libras)

    Diferencia con respecto a la media 

    (10 libras)


    Valor al cuadrado de la diferencia de la media

    Cinnamon

    7

    (-3)

    (-3) * (-3) = 9

    Danielle

    8

    (-2)

    (-2) * (-2) = 4

    Lilypad

    9

    (-1)

    (-1) * (-1) = 1

    Steve

    12

    2

    2 * 2 = 4

    The Amazing Fluffy

    14

    4

    4 * 4 = 16


  5. A continuación, sume todos los valores al cuadrado de las diferencias con respecto a la media:
    9 + 4 + 1 + 4 + 16 = 34

  6. Luego, divida el resultado por la cantidad de puntos de datos (o gatos):
    34/5 = 6.8. La varianza para los gatos es 6,8.

  7. Ahora que conoce la varianza, obtenga la desviación estándar calculando la raíz cuadrada de la varianza. (Puede usar una calculadora para hacerlo).
    La raíz cuadrada de 6,8 es 2,6. La desviación estándar es 2,6.
    Ahora puede saber qué pesos de los gatos se encuentran dentro de una desviación estándar (2,6 libras) con respecto a la media (10 libras):
Nombre del gato Peso (en libras)

Diferencia con respecto a la media 

(10 libras)


¿Dentro de una desviación estándar (2,6 libras)?

Cinnamon

7

(-3)

No

Danielle

8

(-2)

Sí

Lilypad

9

(-1)

Sí

Steve

12

2

Sí

The Amazing Fluffy

14

4

No

Recursos

Comparta sus comentarios sobre Trailhead en la Ayuda de Salesforce.

Nos encantaría conocer su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios cuando quiera desde el sitio de la Ayuda de Salesforce.

Más información Continuar para compartir comentarios