Skip to main content
ƚnase a nosotros en TDX, San Francisco o en Salesforce+ del 5 al 6 de marzo en la conferencia de desarrolladores para la era del agente de la IA. Regƭstrese ahora.

Examine la correlaciĆ³n de datos

Objetivos de aprendizaje

DespuƩs de completar esta unidad, podrƔ:

  • Definir quĆ© es la correlaciĆ³n.
  • Distinguir entre correlaciones fuertes y dĆ©biles.

Recorrido hacia la fluidez de los datos

La alfabetizaciĆ³n de datos es la base para usar y comunicarse con datos fĆ”cilmente. 

En el mĆ³dulo Fundamentos de la alfabetizaciĆ³n de datos, se describen las variables cuantitativas como caracterĆ­sticas que pueden medirse en tĆ©rminos numĆ©ricos; por ejemplo, el nĆŗmero de horas que dedica a ver la televisiĆ³n cada dĆ­a, la velocidad medida en millas por hora, el total en pulgadas de lluvia anual en una ciudad, ventas en dĆ³lares y el importe invertido en marketing.

Al examinar las relaciones dentro de los datos, ĀæcĆ³mo se determina quĆ© tan estrechamente relacionadas estĆ”n dos variables, como las ventas y el importe invertido en marketing? ĀæPuede usar una variable para predecir la otra? 

La correlaciĆ³n y la regresiĆ³n son tĆ©cnicas importantes que se utilizan para detectar tendencias y hacer predicciones. Si bien en los anĆ”lisis de datos se usan otras tĆ©cnicas importantes, nos centramos en la forma mĆ”s simple que se utiliza en la IA y el anĆ”lisis de datos: la correlaciĆ³n y regresiĆ³n lineales.

En esta unidad, podrĆ” familiarizarse con el concepto de correlaciĆ³n. Este hace referencia al movimiento asociado de las variables y cuĆ”n estrecha es la relaciĆ³n entre ellas, si existe una. AdemĆ”s, comprenderĆ” de quĆ© modo la correlaciĆ³n mide la asociaciĆ³n, pero no prueba la causalidad. En la siguiente unidad, explorarĆ” cĆ³mo usar la regresiĆ³n lineal para calcular o predecir el valor de una variable en funciĆ³n de otra, ademĆ”s de determinar cuĆ”n adecuado es el modelo para los datos. 

ĀæQuĆ© es la correlaciĆ³n?

La correlaciĆ³n es una tĆ©cnica que permite demostrar si los pares de variables cuantitativas estĆ”n relacionados y cuĆ”n estrechamente. 

Nota

En esta unidad, se analiza la correlaciĆ³n de Pearson. Existen otras correlaciones no lineales, que no analizamos aquĆ­.

Por ejemplo, Āæhay una relaciĆ³n entre la cantidad de calorĆ­as consumidas al dĆ­a y el peso corporal? ĀæLas personas que consumen mĆ”s calorĆ­as pesan mĆ”s? La correlaciĆ³n puede indicar quĆ© tanto se relaciona el peso de las personas con su ingesta de calorĆ­as.

La correlaciĆ³n entre el peso y la ingesta de calorĆ­as es un ejemplo simple, pero es posible que los datos con los que se trabaja a veces no contengan las relaciones esperadas. Otras veces, puede sospechar que existen correlaciones, pero no saber cuĆ”les son las mĆ”s fuertes. El anĆ”lisis de correlaciones le permite comprender sus datos.

Al comenzarlo, puede crear un diagrama de dispersiĆ³n para investigar la relaciĆ³n entre dos variables cuantitativas. Las variables se representan como coordinadas cartesianas e indican dĆ³nde se encuentra cada punto a lo largo del eje X horizontal y a lo alto en el eje Y vertical. En el diagrama de dispersiĆ³n que se muestra a continuaciĆ³n, verĆ” la relaciĆ³n entre las ventas y el importe invertido en marketing. Parece que existe una correlaciĆ³n: a medida que una variable aumenta, la otra tambiĆ©n lo hace.

Diagrama de dispersiĆ³n que indica una correlaciĆ³n entre dos variables cuantitativas

Nota

Los conceptos en esta unidad fueron adaptados del trabajo de David M. Lane IntroducciĆ³n a la estadĆ­stica (en inglĆ©s), disponible para el pĆŗblico en lĆ­nea.

CorrelaciĆ³n y causalidad

Ahora que sabe cĆ³mo se define la correlaciĆ³n y cĆ³mo se la representa grĆ”ficamente, veamos cĆ³mo comprender mejor este concepto. 

En primer lugar, es importante saber que la correlaciĆ³n nunca demuestra la causalidad

La correlaciĆ³n de Pearson solo indica cuĆ”n estrechamente se relacionan de forma lineal dos variables cuantitativas. No explica el cĆ³mo ni el porquĆ© de esa relaciĆ³n. 

Por ejemplo, las ventas de equipos de aire acondicionado se correlacionan con las ventas de protector solar. Las personas no van a comprar equipos de aire acondicionado porque compraron protector solar, o viceversa. La causa de ambas compras es el clima cƔlido.

ĀæCĆ³mo se mide la correlaciĆ³n?

La correlaciĆ³n de Pearson, tambiĆ©n conocida como coeficiente de correlaciĆ³n de Pearson, se utiliza para medir la fuerza y la direcciĆ³n (positiva o negativa) de la relaciĆ³n lineal entre dos variables cuantitativas. Cuando se mide la correlaciĆ³n en una muestra de datos, el sĆ­mbolo que se utiliza es la letra r. La r de Pearson puede oscilar entre -1 y 1. 

Cuando r es igual a 1, existe una relaciĆ³n lineal positiva perfecta entre las variables. Esto significa que ambas variables se correlacionan perfectamente a medida que aumentan los valores. Cuando r es igual a -1, significa que hay una relaciĆ³n linear negativa perfecta entre las variables. En una correlaciĆ³n negativa perfecta, cuando una variable aumenta, la otra disminuye en la misma magnitud.  Cuando r es igual a 0, no hay una relaciĆ³n lineal entre las variables.

Con datos reales, posiblemente no tendrĆ­a valores de r de -1, 0 o 1. 

En general, cuanto mĆ”s cerca estĆ” r de 1 o de -1, mĆ”s fuerte es la correlaciĆ³n, tal como se muestra en la siguiente tabla.

r = CorrelaciĆ³n

ā€œDe 0.90 to 1ā€,

O bien

ā€œDe -0.90 to -1ā€,

Una correlaciĆ³n muy fuerte

ā€œDe 0.70 to 0.89ā€,

O bien

ā€œDe -0.70 to -0.89ā€,

Una correlaciĆ³n fuerte

ā€œDe 0.40 to 0.69ā€,

O bien

ā€œDe -0.40 to -0.69ā€,

Una correlaciĆ³n moderada

ā€œDe 0.20 to 0.39ā€,

O bien

ā€œDe -0.20 to -0.39ā€,

Una correlaciĆ³n dĆ©bil

ā€œDe 0 to 0.19ā€,

O bien

ā€œDe 0 to -0.19ā€,

Una correlaciĆ³n muy dĆ©bil o nula

Nota

Algunos recursos de este tema clasifican las correlaciones simplemente como fuertes, moderadas o dƩbiles.

Condiciones para la correlaciĆ³n lineal

Para que las correlaciones sean significativas, debe tener en cuenta algunas condiciones: deben usar variables cuantitativas, describir relaciones lineales y tener en cuenta el efecto de cualquier valor atĆ­pico. TambiĆ©n debe comprobar estas condiciones antes de llevar a cabo un anĆ”lisis de correlaciones. 

En 1973, el estadista Francis Anscombe desarrollĆ³ el cuarteto de Anscombe para demostrar la importancia de graficar los datos de manera visual, en lugar de solo realizar pruebas estadĆ­sticas. Las cuatro visualizaciones de su cuarteto muestran la misma ecuaciĆ³n de lĆ­nea de tendencia. El cuarteto ilustra la importancia de las visualizaciones: ayudan a identificar tendencias dentro de los datos, que podrĆ­an estar disimuladas por las pruebas estadĆ­sticas.

En el ejemplo a continuaciĆ³n, solo el diagrama de dispersiĆ³n que se encuentra en la esquina superior izquierda del cuarteto cumple con los criterios de ser lineal y no presentar valores atĆ­picos. El diagrama de dispersiĆ³n ubicado arriba y a la derecha no muestra una relaciĆ³n lineal; un modelo no lineal serĆ­a mĆ”s adecuado. Los dos diagramas de dispersiĆ³n en la parte inferior tienen valores atĆ­picos que puedan afectar los resultados significativamente.  

Cuatro diagramas de dispersiĆ³n, con el diagrama en la esquina superior izquierda resaltado, que muestran una relaciĆ³n lineal sin valores atĆ­picos.

Ahora que se familiarizĆ³ con los conceptos en torno a la tĆ©cnica estadĆ­stica de correlaciĆ³n, ya puede avanzar a la prĆ³xima unidad donde aprenderĆ” sobre la regresiĆ³n lineal.

Recursos

Comparta sus comentarios de Trailhead en la Ayuda de Salesforce.

Nos encantarƭa saber mƔs sobre su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios en cualquier momento en el sitio de Ayuda de Salesforce.

MĆ”s informaciĆ³n Continuar a Compartir comentarios