Examinar la correlaciĆ³n de datos
Objetivos de aprendizaje
DespuƩs de completar esta unidad, podrƔ:
- Definir quĆ© es la correlaciĆ³n.
- Distinguir entre correlaciones fuertes y dƩbiles.
Recorrido hacia la fluidez de los datos
La alfabetizaciĆ³n de datos es la base para usar datos y comunicarse con ellos fĆ”cilmente.
En el mĆ³dulo Fundamentos de la alfabetizaciĆ³n de datos, se describen las variables cuantitativas como caracterĆsticas que pueden medirse en tĆ©rminos numĆ©ricos; por ejemplo, el nĆŗmero de horas que emplea en ver la televisiĆ³n cada dĆa, la velocidad medida en millas por hora, el total en pulgadas de lluvia anual en una ciudad, ventas en dĆ³lares y el importe invertido en marketing.
Al examinar las relaciones dentro de los datos, ĀæcĆ³mo se determina el grado de relaciĆ³n entre dos variables, como las ventas y el importe invertido en marketing? ĀæPuede usar una variable para predecir la otra?
La correlaciĆ³n y la regresiĆ³n son tĆ©cnicas importantes que se utilizan para detectar tendencias y hacer predicciones. Si bien en los anĆ”lisis de datos se usan otras tĆ©cnicas importantes, nos centramos en la forma mĆ”s simple que se utiliza en la IA y el anĆ”lisis de datos: la correlaciĆ³n y regresiĆ³n lineales.
En esta unidad, podrĆ” familiarizarse con el concepto de correlaciĆ³n. Este hace referencia al movimiento asociado de las variables y el grado de relaciĆ³n entre ellas, si existe una. AdemĆ”s, comprenderĆ” de quĆ© modo la correlaciĆ³n mide la asociaciĆ³n, pero no prueba la causalidad. En la siguiente unidad, explorarĆ” cĆ³mo usar la regresiĆ³n lineal para calcular o predecir el valor de una variable en funciĆ³n de otra, ademĆ”s de determinar cĆ³mo se ajusta este modelo para los datos.
ĀæQuĆ© es la correlaciĆ³n?
La correlaciĆ³n es una tĆ©cnica que permite demostrar si los pares de variables cuantitativas estĆ”n relacionados y cuĆ”l es el grado de relaciĆ³n.
Por ejemplo, Āæhay una relaciĆ³n entre la cantidad de calorĆas consumidas al dĆa y el peso corporal? ĀæLas personas que consumen mĆ”s calorĆas pesan mĆ”s? La correlaciĆ³n puede indicar en quĆ© medida se relaciona el peso de las personas con su ingesta de calorĆas.
La correlaciĆ³n entre el peso y la ingesta de calorĆas es un ejemplo simple, pero es posible que los datos con los que se trabaja a veces no contengan las relaciones esperadas. Otras veces, puede sospechar que existen correlaciones, pero no saber cuĆ”les son las mĆ”s fuertes. El anĆ”lisis de correlaciones le permite comprender sus datos.
Al comenzarlo, puede crear un diagrama de dispersiĆ³n para investigar la relaciĆ³n entre dos variables cuantitativas. Las variables se representan como coordinadas cartesianas e indican dĆ³nde se encuentra cada punto a lo largo del eje X horizontal y a lo alto en el eje Y vertical. En el diagrama de dispersiĆ³n que se muestra a continuaciĆ³n, verĆ” la relaciĆ³n entre las ventas y el importe invertido en marketing. Parece que existe una correlaciĆ³n: A medida que una variable aumenta, la otra tambiĆ©n lo hace.
CorrelaciĆ³n y causalidad
Ahora que sabe cĆ³mo se define la correlaciĆ³n y cĆ³mo se la representa grĆ”ficamente, veamos cĆ³mo comprender mejor este concepto.
En primer lugar, es importante saber que la correlaciĆ³n nunca demuestra la causalidad.
La correlaciĆ³n de Pearson solo indica el grado de relaciĆ³n de forma lineal entre dos variables cuantitativas. No explica el cĆ³mo ni el porquĆ© de esa relaciĆ³n.
Por ejemplo, las ventas de equipos de aire acondicionado se correlacionan con las ventas de protector solar. Las personas no van a comprar equipos de aire acondicionado porque compraron protector solar, o viceversa. La causa de ambas compras es el clima caluroso.
ĀæCĆ³mo se mide la correlaciĆ³n?
La correlaciĆ³n de Pearson, tambiĆ©n conocida como coeficiente de correlaciĆ³n, se utiliza para medir la fuerza y la direcciĆ³n (positiva o negativa) de la relaciĆ³n lineal entre dos variables cuantitativas. Cuando se mide la correlaciĆ³n en una muestra de datos, el sĆmbolo que se utiliza es la letra r. La r de Pearson puede oscilar entre -1 y 1.
Cuando r = 1, existe una relaciĆ³n lineal positiva perfecta entre las variables. Esto significa que ambas variables se correlacionan perfectamente a medida que aumentan los valores. Cuando r = -1, significa que hay una relaciĆ³n lineal negativa perfecta entre las variables. En una correlaciĆ³n negativa perfecta, cuando una variable aumenta, la otra disminuye en la misma magnitud. Cuando r = 0, no hay una relaciĆ³n lineal entre las variables.
Con datos reales, posiblemente no tendrĆa valores de r de -1, 0 o 1.
En general, cuanto mĆ”s cerca estĆ” r de 1 o de -1, mĆ”s fuerte es la correlaciĆ³n, tal como se muestra en la siguiente tabla.
r = | CorrelaciĆ³n |
---|---|
de 0,90 a 1 o de -0,90 a -1 |
Una correlaciĆ³n muy fuerte |
de 0,70 a 0,89 o de -0,70 a -0,89 |
Una correlaciĆ³n fuerte |
de 0,40 a 0,69 o de -0,40 a -0,69 |
Una correlaciĆ³n moderada |
de 0,20 a 0,39 o de -0,20 a -0,39 |
Una correlaciĆ³n dĆ©bil |
de 0 a 0,19 o de 0 a -0,19 |
Una correlaciĆ³n muy dĆ©bil o nula |
Condiciones para la correlaciĆ³n lineal
Para que las correlaciones sean significativas, debe considerar algunas condiciones: deben usar variables cuantitativas, describir relaciones lineales y tener en cuenta el efecto de los valores atĆpicos. TambiĆ©n debe comprobar estas condiciones antes de llevar a cabo un anĆ”lisis de correlaciones.
En 1973, el estadista Francis Anscombe desarrollĆ³ el cuarteto de Anscombe para demostrar la importancia de realizar grĆ”ficos de los datos de manera visual, en lugar de solo realizar pruebas estadĆsticas. Las cuatro visualizaciones de su cuarteto muestran la misma ecuaciĆ³n de lĆnea de tendencia. El cuarteto ilustra la importancia de las visualizaciones: ayudan a identificar tendencias dentro de los datos, que podrĆan estar disimuladas por las pruebas estadĆsticas.
En el siguiente ejemplo, solo el diagrama de dispersiĆ³n que se encuentra en la esquina superior izquierda del cuarteto cumple con los criterios de ser lineal y no presentar valores atĆpicos. El diagrama de dispersiĆ³n ubicado arriba a la derecha no muestra una relaciĆ³n lineal; un modelo no lineal serĆa mĆ”s adecuado. Los dos diagramas de dispersiĆ³n en la parte inferior tienen valores atĆpicos que pueden afectar a los resultados significativamente.
Ahora que se ha familiarizado con los conceptos en torno a la tĆ©cnica estadĆstica de correlaciĆ³n, ya puede pasar a la siguiente unidad, donde aprenderĆ” sobre la regresiĆ³n lineal.