Skip to main content
Únase a nosotros en TDX, en San Francisco, o en Salesforce+ los días 5 y 6 de marzo en la conferencia para desarrolladores sobre la era de agentes de IA. Registrarse ahora.

Estimar la probabilidad

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Describir las distribuciones continuas.
  • Describir las características de una distribución normal.

Introducción

En el módulo Distribuciones de datos, se explica que puede usar un histograma para representar la distribución de valores continuos. A continuación, vamos a ver el concepto de distribuciones continuas.

No abordaremos las fórmulas específicas utilizadas para realizar los cálculos mencionados en esta unidad. Sin embargo, conocer los aspectos generales de estos conceptos puede resultarle útil a medida que explora y comprende los datos, y se comunica con ellos.

Curvas de densidad

En el módulo Distribuciones de datos, se explica cómo los histogramas pueden representar las distribuciones de muestras finitas de variables continuas. La altura de cada barra del histograma es proporcional a la frecuencia de los valores dentro de esa agrupación. En otras palabras, cuanto más alta sea la barra, con más frecuencia estarán los puntos de datos de la muestra dentro de esa agrupación.

Un histograma con cinco agrupacionesPor ejemplo, en el histograma anterior se muestra la distribución de la altura, en pulgadas, para 40 personas. Claramente, se trata de una muestra con un número finito de puntos de datos. Sin embargo, al considerar todos los posibles valores de la variable continua de la altura, es evidente que puede variar mucho. No existen horas suficientes en nuestra vida para crear un histograma con agrupaciones para todos los valores de altura posibles. Lo mismo ocurre con cualquier otra variable continua.

En lugar de utilizar un histograma para representar todos los valores posibles de una variable continua, podemos usar una distribución continua. Una distribución continua tiene el aspecto de una curva suave, también llamada curva de densidad. La curva de densidad no solo representa los valores de una muestra específica. Representa todos los valores posibles, así como sus probabilidades de ocurrencia o la probabilidad de que se repitan los valores.

Una curvas de densidad azul

Al observar los histogramas, podemos ver que se utiliza la altura de las barras para comprender la cantidad de puntos de datos que existen dentro de esa agrupación, o con qué frecuencia los puntos de datos están dentro de esa agrupación. Sin embargo, cuando observamos distribuciones continuas, no podemos interpretar la altura de una curva de probabilidad de esa manera. 

Piense en los datos con todos los valores de altura posibles. No es relevante conocer la probabilidad de que una persona mida exactamente 61 pulgadas. Con un número infinito de valores, hacer una pregunta centrada en 61 pulgadas es tan arbitrario como preguntar sobre la probabilidad de que alguien mida 61,002 pulgadas o 60,9997 pulgadas.

En su lugar, la probabilidad se analiza con un intervalo, que equivale al área bajo la curva dentro de ese intervalo.

El área total bajo la curva es 1, o un 100 %, porque hay un 100 % de probabilidad de que todos los valores posibles estén en algún lugar dentro de la curva.

Una curva de densidad con un área compartida (intervalo)

En resumen, estos son algunos conceptos que debe tener en cuenta sobre las curvas de densidad.

  • El área total bajo la curva es un 100 % o 1.
  • Son distribuciones continuas que representan todos los puntos de datos posibles a la vez.
  • El eje Y representa la densidad de probabilidad, que indica la posibilidad de obtener valores cerca de los puntos correspondientes en el eje X.

Distribución normal

Ahora vamos a centrarnos en una curva de densidad especial, la distribución normal o curva normal. Tiene la forma simétrica de una campana.

Cuando vimos las distribuciones de variables continuas expresadas gráficamente en histogramas, aprendió a identificar una distribución simétrica. Si dobla un histograma distribuido simétricamente por la mitad, ambos lados coincidirían perfectamente. En las distribuciones simétricas, la media y la mediana son iguales.

Al igual que sucede en las distribuciones simétricas, en una distribución normal, la forma es simétrica y la media también es igual a la mediana.

Estas son las principales características de una distribución normal.

  • Son simétricas alrededor de la media.
  • La media y la mediana son iguales.
  • El área que se encuentra bajo la curva normal es igual a 1,0 (o 100 %).
  • Son más densas en el centro y menos densas en los extremos.
  • Se definen en función de dos parámetros, la media y la desviación estándar.Una curva normal con porcentajes de datos, desviaciones estándar y la media

Observe la distribución normal que se muestra en la curva de arriba. En una distribución normal, el 68 % de los datos se encuentra entre una desviación estándar de +1 y -1 con respecto a la media, y el 95 % de los datos se encuentra dentro de unas desviaciones estándar de -2 y +2 con respecto a la media. Los extremos cortos a ambos lados de la curva indican que muy pocos valores (un 5 %) estarán fuera de las desviaciones estándar de -2 y +2 con respecto a la media.

Las distribuciones normales con desviaciones estándar más pequeñas tendrán curvas más estrechas y altas que las distribuciones normales con desviaciones estándar más grandes. 

En esta imagen, ambas distribuciones normales tienen una media de 50. La curva más grande tiene una desviación estándar de 5 y la curva más pequeña tiene una desviación estándar de 10.

Dos curvas con una media de 50; la curva más grande tiene una desviación estándar de 5 y la curva más pequeña tiene una desviación estándar de 10

La utilidad de una distribución normal

En su libro The Truthful Art, el diseñador de información y profesor Alberto Cairo explica que "ningún fenómeno de la naturaleza sigue una distribución normal perfecta, pero muchos se aproximan lo suficiente como para convertirla en una de las principales herramientas de la estadística". Cairo sigue explicando: "Si sabe que el fenómeno que está estudiando tiene una distribución normal, aunque no sea perfecta, puede estimar la probabilidad de cualquier caso o puntuación con una precisión razonable". En otras palabras, las propiedades de la curva normal se pueden utilizar para estimar la probabilidad de un caso o una puntuación con una precisión razonable.

En general, las estimaciones de una población derivan de una muestra, porque no siempre podemos medir la población completa. Si la muestra representa a la población, la curva normal es una herramienta de estimación útil.

Monigotes en un óvalo grande que representa la población total y una cantidad más pequeña de monigotes en un óvalo más pequeño que representa la muestra

Intervalos de confianza

Al utilizar la curva normal para hacer estimaciones de probabilidad en datos de muestra, puede usar intervalos de confianza a fin de incluir un margen de error. 

Los intervalos de confianza son un ejemplo de inferencias. La inferencia es un proceso que implica extraer conclusiones sobre una población a partir de una muestra de los datos.

Distribución normal sobre tres barras azules que representan intervalos de confianza

Un intervalo de confianza contiene una media de la población para una proporción específica del tiempo. Por ejemplo, si desea tener un intervalo de confianza del 95 %, significa que en ese intervalo del 95 % de sus datos se incluirá la media real.

El intervalo de confianza del 95 % se obtiene con la distribución normal, donde el 95 % de los datos se encuentra entre -2 y +2 de desviación estándar de la media.

Vamos a ver el siguiente ejemplo adaptado del capítulo de David M. Lane sobre intervalos de confianza, disponible para el público en su trabajo en línea Introduction to Statistics.

Imagine que desea conocer el peso medio (promedio) en libras de los niños de 10 años de Estados Unidos. Obviamente, no puede pesar a cada niño de 10 años, así que, pesa a una muestra de 16 niños. Descubre que el peso medio es de 90 libras. Esta media de la muestra de 90 libras es una estimación puntual de la media de la población. Sin embargo, no proporciona una idea clara de lo cerca o lejos que está de la media de la población. En otras palabras, ¿puede afirmar que el peso medio de toda la población estadounidense de niños de 10 años está dentro de las 90 libras? Simplemente, no hay manera de saberlo.

Una distribución normal con los valores que establecen un intervalo de confianza del 95 %

Sin embargo, puede usar un cálculo (no lo veremos aquí) para lograr un intervalo de confianza del 95 %. Un intervalo de confianza del 95 % incluiría pesos medios de entre 72,85 y 107,15 libras. 

En otras palabras, sería razonable afirmar que el peso medio de toda la población de niños estadounidenses de 10 años estaría entre 72,85 y 107,15 libras. Esto se debe a que, después de tomar muestras repetidas con el intervalo de confianza del 95 % calculado para cada muestra, el 95 % de las veces, los intervalos incluyen la media real. 

Pero esto también indica que, en el 5 % de los casos, los intervalos no incluyen la media real.

Ejemplos reales de visualización de la incertidumbre

Alberto Cairo, mencionado anteriormente en esta unidad, también escribió una serie de publicaciones de blog donde se describen ejemplos reales de cómo se ha representado (y malinterpretado) la incertidumbre en visualizaciones que muestran las trayectorias de los huracanes. Puede explorar la publicación del blog sobre la mala interpretación de los mapas del pronóstico para la tormenta de categoría 5 en 2019, el huracán Dorian, además de otros temas relacionados, en el sitio web profesional de Alberto Cairo.

Ya conoce las distribuciones continuas, incluida la forma especial de la curva normal. En la próxima unidad, analizaremos el concepto de pruebas de hipótesis con muestras de datos.

Recursos 

Comparta sus comentarios sobre Trailhead en la Ayuda de Salesforce.

Nos encantaría conocer su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios cuando quiera desde el sitio de la Ayuda de Salesforce.

Más información Continuar para compartir comentarios