Skip to main content
Join the Agentforce Hackathon on Nov. 18-19 to compete for a $20,000 Grand Prize. Sign up now. Terms apply.

Usar histogramas para mostrar distribuciones de variables continuas

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Identificar las formas de las distribuciones para variables continuas.
  • Describir cómo usar histogramas para representar la distribución de datos.

En la unidad anterior, exploramos las distribuciones de una variable discreta (el color de los dulces). Aprendió que las variables discretas tienen valores separados y distintos, mientras que las variables continuas tienen valores que forman un todo ininterrumpido. En esta unidad, explorará las distribuciones de variables continuas y cómo usar histogramas para representarlas.

El siguiente ejemplo fue adaptado del capítulo sobre distribuciones en Online Statistics Education: Curso de estudio multimedia. Líder del proyecto: David M. Lane, Rice University.

En una serie de 20 pruebas, uno de los autores registró sus tiempos de respuesta al mover el cursor sobre un objetivo. La variable “tiempo de respuesta” es continua y, cuando el tiempo se mide en milisegundos, no hay dos tiempos de respuesta iguales.

El gráfico muestra estos tiempos de respuesta en milisegundos.

Prueba Tiempos de respuesta en milisegundos Prueba Tiempos de respuesta en milisegundos

1.

568

11.

720

2.

577

12.

728

3.

581

13.

729

4.

640

14.

777

5.

641

15.

808

6.

645

16.

824

7.

657

17.

825

8.

673

18.

865

9.

696

19.

875

10.

703

20.

1007

Distribuciones de frecuencia agrupada de los tiempos de respuesta

Piense en lo que aprendió sobre las distribuciones de la frecuencia que abordamos en la unidad anterior. Si representó los valores de tiempo de respuesta en la tabla anterior mediante una distribución de la frecuencia, habría 20 valores diferentes, cada uno con un valor de frecuencia 1. Esto no aporta demasiada información. 

Para resolver el problema, puede crear una distribución de frecuencia agrupada donde se representan en una tabla los tiempos de respuesta que se encuentran dentro de varias agrupaciones de igual tamaño (intervalos de valores), tal como se muestra en la tabla.

Agrupación (en milisegundos) Frecuencia

500-600

3

600-700

6

700-800

5

800-900

5

900-1000

0

1000-1100

1

Para representar en un gráfico las distribuciones de frecuencia agrupada, puede usar un histograma. Las etiquetas en el eje x corresponden a los valores medios de la agrupación que representan. 

Histograma con seis agrupaciones que muestra la distribución de frecuencia agrupada de los tiempos de respuesta; una de ellas no contiene valores.

Veremos los histogramas con más detalle un poco más adelante. En primer lugar, exploremos las diferentes formas de distribución y lo que indican sobre los datos de un histograma.

Formas de las distribuciones

Las distribuciones tienen diferentes formas. Pueden ser simétricas, con los valores distribuidos uniformemente alrededor del centro. También pueden tener un sesgo positivo, con más valores hacia la derecha, o un sesgo negativo, con más valores hacia la izquierda.

Imagine que midió la altura de las personas de tres grupos diferentes. Luego, creó un histograma para cada uno a fin de representar la distribución de altura de las personas dentro de ese grupo.

El tamaño de la agrupación es de 2,95 pulgadas, por lo que las alturas de las personas se clasifican en 59 a 61,95 pulgadas, 62 a 64,95 pulgadas, etc. (Tableau Desktop creó automáticamente el tamaño de la agrupación).

Tres histogramas que muestran distribuciones de altura, uno para cada grupo

Exploremos la forma de cada distribución. En cada una de las distribuciones que se muestran a continuación, observe que los valores de media (promedio) y mediana (valor medio de los puntos de datos) determinan la forma. 

Distribuciones simétricas

En nuestro ejemplo, la distribución de altura para uno de los grupos es prácticamente simétrica. Si la doblara por la mitad, ambos lados prácticamente coincidirían.

En una distribución completamente simétrica, el centro de los datos es la media (o promedio) y la mediana (el valor medio de los puntos de datos), ya que ambos valores son idénticos. El centro de los datos está representado por ambos valores, y la distribución se extiende de igual manera a ambos lados del centro.Histograma de una distribución casi simétrica con la media y la mediana indicadas con líneas de guiones amarilla y naranja superpuestas

Distribuciones de sesgo positivo

Algunas distribuciones no son simétricas. Si los datos en una distribución se orientan más hacia la dirección positiva que hacia la dirección negativa, se trata de una distribución con un sesgo positivo. El sesgo positivo también se conoce como sesgo a la derecha, porque los datos se extienden hacia la derecha. La “cola” derecha es más larga. Cuando una distribución tiene un sesgo positivo, la mediana es menor que la media (o el promedio).

Por ejemplo, imagine una ciudad cuyos residentes incluyen varios multimillonarios. Los altos ingresos de esos multimillonarios sesgarían los ingresos medios (o promedio) de la ciudad. Los ingresos promedio parecerían más altos de lo que son. Para reflejar verdaderamente la situación económica de todos los residentes de una ciudad, el ingreso promedio sería la mejor opción.

De igual modo, al observar los datos de alturas, un grupo muestra un sesgo positivo debido a la presencia de tres personas que medían cerca de 72" (6 pies) o más. Estas personas más altas hacen que la media sea mayor. Por lo tanto, usar la mediana para conocer la altura del grupo también sería una mejor opción en este caso.Histograma que representa una distribución con un sesgo positivo, con la media (línea con guiones amarilla) y la mediana (línea con guiones naranja) marcadas

Distribuciones de sesgo negativo

Otra distribución asimétrica es la distribución de sesgo negativo. Los datos en una distribución de sesgo negativo se orientan más hacia la dirección negativa que hacia la dirección positiva. El sesgo negativo también se conoce como sesgo a la izquierda, porque los datos se extienden hacia la izquierda. La “cola” izquierda es más larga. Cuando una distribución tiene un sesgo negativo, la mediana es mayor que la media (o el promedio).

Por ejemplo, imagine una clase de 20 estudiantes. En esta clase, hay dos estudiantes que nunca asistieron a clase ni completaron ninguna tarea. Estos dos estudiantes obtuvieron una calificación final de 0,0. Sus calificaciones de 0,0 afectarían a los resultados de la calificación media (o promedio) de toda la clase, por lo que el rendimiento promedio de los estudiantes parecería más bajo de lo que es. Para reflejar verdaderamente el desempeño de los estudiantes en esta clase, la calificación media obtenida sería una mejor opción.

De igual modo, al observar los datos de alturas, un grupo muestra un sesgo negativo debido a la presencia de personas que medían menos de 60" (5 pies). Estas personas más bajas hacen que la media sea menor.Histograma en el que se representa una distribución con un sesgo negativo, con la media (línea con guiones amarilla) y la mediana (línea con guiones naranja) marcadas

Histogramas

Todos los gráficos que explora en esta unidad son histogramas. Un histograma se parece a un gráfico de barras, pero agrupa los valores de una variable continua en intervalos de igual tamaño, o agrupaciones

En este histograma se utiliza un conjunto de datos con información sobre atletas olímpicos. Una de las variables en el conjunto de datos incluye las edades de los atletas. El histograma le permite ver cómo los atletas se dividen en diferentes grupos de edad.

Histograma que muestra los intervalos de edad de los atletas olímpicos representados en agrupaciones.

Agrupaciones

Cada agrupación está definida por un intervalo de edad de cuatro años, como 12-15, 16-19 (A), 20-23, 24-27, etc. 

Columnas

Cada columna representa el número de elementos que satisfacen los criterios de la agrupación (en este caso, el intervalo de edad). En nuestro ejemplo, hay 48 atletas en el intervalo de 32 a 35 años (B).

Ya aprendió cómo funcionan las distribuciones de variables continuas organizadas como histogramas. En la siguiente unidad, aprenderá a reconocer distribuciones de variables continuas con diagramas de cajas.

Recursos

Comparta sus comentarios de Trailhead en la Ayuda de Salesforce.

Nos encantaría saber más sobre su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios en cualquier momento en el sitio de Ayuda de Salesforce.

Más información Continuar a Compartir comentarios