Examinar la correlación de datos
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Definir qué es la correlación.
- Distinguir entre correlaciones fuertes y débiles.
Recorrido hacia la fluidez de los datos
La alfabetización de datos es la base para usar datos y comunicarse con ellos fácilmente.
En el módulo Fundamentos de la alfabetización de datos, se describen las variables cuantitativas como características que pueden medirse en términos numéricos; por ejemplo, el número de horas que emplea en ver la televisión cada día, la velocidad medida en millas por hora, el total en pulgadas de lluvia anual en una ciudad, ventas en dólares y el importe invertido en marketing.
Al examinar las relaciones dentro de los datos, ¿cómo se determina el grado de relación entre dos variables, como las ventas y el importe invertido en marketing? ¿Puede usar una variable para predecir la otra?
La correlación y la regresión son técnicas importantes que se utilizan para detectar tendencias y hacer predicciones. Si bien en los análisis de datos se usan otras técnicas importantes, nos centramos en la forma más simple que se utiliza en la IA y el análisis de datos: la correlación y regresión lineales.
En esta unidad, podrá familiarizarse con el concepto de correlación. Este hace referencia al movimiento asociado de las variables y el grado de relación entre ellas, si existe una. Además, comprenderá de qué modo la correlación mide la asociación, pero no prueba la causalidad. En la siguiente unidad, explorará cómo usar la regresión lineal para calcular o predecir el valor de una variable en función de otra, además de determinar cómo se ajusta este modelo para los datos.
¿Qué es la correlación?
La correlación es una técnica que permite demostrar si los pares de variables cuantitativas están relacionados y cuál es el grado de relación.
Por ejemplo, ¿hay una relación entre la cantidad de calorías consumidas al día y el peso corporal? ¿Las personas que consumen más calorías pesan más? La correlación puede indicar en qué medida se relaciona el peso de las personas con su ingesta de calorías.
La correlación entre el peso y la ingesta de calorías es un ejemplo simple, pero es posible que los datos con los que se trabaja a veces no contengan las relaciones esperadas. Otras veces, puede sospechar que existen correlaciones, pero no saber cuáles son las más fuertes. El análisis de correlaciones le permite comprender sus datos.
Al comenzarlo, puede crear un diagrama de dispersión para investigar la relación entre dos variables cuantitativas. Las variables se representan como coordinadas cartesianas e indican dónde se encuentra cada punto a lo largo del eje X horizontal y a lo alto en el eje Y vertical. En el diagrama de dispersión que se muestra a continuación, verá la relación entre las ventas y el importe invertido en marketing. Parece que existe una correlación: A medida que una variable aumenta, la otra también lo hace.
Correlación y causalidad
Ahora que sabe cómo se define la correlación y cómo se la representa gráficamente, veamos cómo comprender mejor este concepto.
En primer lugar, es importante saber que la correlación nunca demuestra la causalidad.
La correlación de Pearson solo indica el grado de relación de forma lineal entre dos variables cuantitativas. No explica el cómo ni el porqué de esa relación.
Por ejemplo, las ventas de equipos de aire acondicionado se correlacionan con las ventas de protector solar. Las personas no van a comprar equipos de aire acondicionado porque compraron protector solar, o viceversa. La causa de ambas compras es el clima caluroso.
¿Cómo se mide la correlación?
La correlación de Pearson, también conocida como coeficiente de correlación, se utiliza para medir la fuerza y la dirección (positiva o negativa) de la relación lineal entre dos variables cuantitativas. Cuando se mide la correlación en una muestra de datos, el símbolo que se utiliza es la letra r. La r de Pearson puede oscilar entre -1 y 1.
Cuando r = 1, existe una relación lineal positiva perfecta entre las variables. Esto significa que ambas variables se correlacionan perfectamente a medida que aumentan los valores. Cuando r = -1, significa que hay una relación lineal negativa perfecta entre las variables. En una correlación negativa perfecta, cuando una variable aumenta, la otra disminuye en la misma magnitud. Cuando r = 0, no hay una relación lineal entre las variables.
Con datos reales, posiblemente no tendría valores de r de -1, 0 o 1.
En general, cuanto más cerca está r de 1 o de -1, más fuerte es la correlación, tal como se muestra en la siguiente tabla.
r = | Correlación |
---|---|
de 0,90 a 1 o de -0,90 a -1 |
Una correlación muy fuerte |
de 0,70 a 0,89 o de -0,70 a -0,89 |
Una correlación fuerte |
de 0,40 a 0,69 o de -0,40 a -0,69 |
Una correlación moderada |
de 0,20 a 0,39 o de -0,20 a -0,39 |
Una correlación débil |
de 0 a 0,19 o de 0 a -0,19 |
Una correlación muy débil o nula |
Condiciones para la correlación lineal
Para que las correlaciones sean significativas, debe considerar algunas condiciones: deben usar variables cuantitativas, describir relaciones lineales y tener en cuenta el efecto de los valores atípicos. También debe comprobar estas condiciones antes de llevar a cabo un análisis de correlaciones.
En 1973, el estadista Francis Anscombe desarrolló el cuarteto de Anscombe para demostrar la importancia de realizar gráficos de los datos de manera visual, en lugar de solo realizar pruebas estadísticas. Las cuatro visualizaciones de su cuarteto muestran la misma ecuación de línea de tendencia. El cuarteto ilustra la importancia de las visualizaciones: ayudan a identificar tendencias dentro de los datos, que podrían estar disimuladas por las pruebas estadísticas.
En el siguiente ejemplo, solo el diagrama de dispersión que se encuentra en la esquina superior izquierda del cuarteto cumple con los criterios de ser lineal y no presentar valores atípicos. El diagrama de dispersión ubicado arriba a la derecha no muestra una relación lineal; un modelo no lineal sería más adecuado. Los dos diagramas de dispersión en la parte inferior tienen valores atípicos que pueden afectar a los resultados significativamente.
Ahora que se ha familiarizado con los conceptos en torno a la técnica estadística de correlación, ya puede pasar a la siguiente unidad, donde aprenderá sobre la regresión lineal.