Examine la correlación de datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Definir qué es la correlación.
- Distinguir entre correlaciones fuertes y débiles.
Recorrido hacia la fluidez de los datos
La alfabetización de datos es la base para usar y comunicarse con datos fácilmente.
En el módulo Fundamentos de la alfabetización de datos, se describen las variables cuantitativas como características que pueden medirse en términos numéricos; por ejemplo, el número de horas que dedica a ver la televisión cada día, la velocidad medida en millas por hora, el total en pulgadas de lluvia anual en una ciudad, ventas en dólares y el importe invertido en marketing.
Al examinar las relaciones dentro de los datos, ¿cómo se determina qué tan estrechamente relacionadas están dos variables, como las ventas y el importe invertido en marketing? ¿Puede usar una variable para predecir la otra?
La correlación y la regresión son técnicas importantes que se utilizan para detectar tendencias y hacer predicciones. Si bien en los análisis de datos se usan otras técnicas importantes, nos centramos en la forma más simple que se utiliza en la IA y el análisis de datos: la correlación y regresión lineales.
En esta unidad, podrá familiarizarse con el concepto de correlación. Este hace referencia al movimiento asociado de las variables y cuán estrecha es la relación entre ellas, si existe una. Además, comprenderá de qué modo la correlación mide la asociación, pero no prueba la causalidad. En la siguiente unidad, explorará cómo usar la regresión lineal para calcular o predecir el valor de una variable en función de otra, además de determinar cuán adecuado es el modelo para los datos.
¿Qué es la correlación?
La correlación es una técnica que permite demostrar si los pares de variables cuantitativas están relacionados y cuán estrechamente.
Por ejemplo, ¿hay una relación entre la cantidad de calorías consumidas al día y el peso corporal? ¿Las personas que consumen más calorías pesan más? La correlación puede indicar qué tanto se relaciona el peso de las personas con su ingesta de calorías.
La correlación entre el peso y la ingesta de calorías es un ejemplo simple, pero es posible que los datos con los que se trabaja a veces no contengan las relaciones esperadas. Otras veces, puede sospechar que existen correlaciones, pero no saber cuáles son las más fuertes. El análisis de correlaciones le permite comprender sus datos.
Al comenzarlo, puede crear un diagrama de dispersión para investigar la relación entre dos variables cuantitativas. Las variables se representan como coordinadas cartesianas e indican dónde se encuentra cada punto a lo largo del eje X horizontal y a lo alto en el eje Y vertical. En el diagrama de dispersión que se muestra a continuación, verá la relación entre las ventas y el importe invertido en marketing. Parece que existe una correlación: a medida que una variable aumenta, la otra también lo hace.
Correlación y causalidad
Ahora que sabe cómo se define la correlación y cómo se la representa gráficamente, veamos cómo comprender mejor este concepto.
En primer lugar, es importante saber que la correlación nunca demuestra la causalidad.
La correlación de Pearson solo indica cuán estrechamente se relacionan de forma lineal dos variables cuantitativas. No explica el cómo ni el porqué de esa relación.
Por ejemplo, las ventas de equipos de aire acondicionado se correlacionan con las ventas de protector solar. Las personas no van a comprar equipos de aire acondicionado porque compraron protector solar, o viceversa. La causa de ambas compras es el clima cálido.
¿Cómo se mide la correlación?
La correlación de Pearson, también conocida como coeficiente de correlación de Pearson, se utiliza para medir la fuerza y la dirección (positiva o negativa) de la relación lineal entre dos variables cuantitativas. Cuando se mide la correlación en una muestra de datos, el símbolo que se utiliza es la letra r. La r de Pearson puede oscilar entre -1 y 1.
Cuando r es igual a 1, existe una relación lineal positiva perfecta entre las variables. Esto significa que ambas variables se correlacionan perfectamente a medida que aumentan los valores. Cuando r es igual a -1, significa que hay una relación linear negativa perfecta entre las variables. En una correlación negativa perfecta, cuando una variable aumenta, la otra disminuye en la misma magnitud. Cuando r es igual a 0, no hay una relación lineal entre las variables.
Con datos reales, posiblemente no tendría valores de r de -1, 0 o 1.
En general, cuanto más cerca está r de 1 o de -1, más fuerte es la correlación, tal como se muestra en la siguiente tabla.
r = | Correlación |
---|---|
“De 0.90 to 1”, O bien “De -0.90 to -1”, |
Una correlación muy fuerte |
“De 0.70 to 0.89”, O bien “De -0.70 to -0.89”, |
Una correlación fuerte |
“De 0.40 to 0.69”, O bien “De -0.40 to -0.69”, |
Una correlación moderada |
“De 0.20 to 0.39”, O bien “De -0.20 to -0.39”, |
Una correlación débil |
“De 0 to 0.19”, O bien “De 0 to -0.19”, |
Una correlación muy débil o nula |
Condiciones para la correlación lineal
Para que las correlaciones sean significativas, debe tener en cuenta algunas condiciones: deben usar variables cuantitativas, describir relaciones lineales y tener en cuenta el efecto de cualquier valor atípico. También debe comprobar estas condiciones antes de llevar a cabo un análisis de correlaciones.
En 1973, el estadista Francis Anscombe desarrolló el cuarteto de Anscombe para demostrar la importancia de graficar los datos de manera visual, en lugar de solo realizar pruebas estadísticas. Las cuatro visualizaciones de su cuarteto muestran la misma ecuación de línea de tendencia. El cuarteto ilustra la importancia de las visualizaciones: ayudan a identificar tendencias dentro de los datos, que podrían estar disimuladas por las pruebas estadísticas.
En el ejemplo a continuación, solo el diagrama de dispersión que se encuentra en la esquina superior izquierda del cuarteto cumple con los criterios de ser lineal y no presentar valores atípicos. El diagrama de dispersión ubicado arriba y a la derecha no muestra una relación lineal; un modelo no lineal sería más adecuado. Los dos diagramas de dispersión en la parte inferior tienen valores atípicos que puedan afectar los resultados significativamente.
Ahora que se familiarizó con los conceptos en torno a la técnica estadística de correlación, ya puede avanzar a la próxima unidad donde aprenderá sobre la regresión lineal.