Skip to main content
ƚnase a nosotros en TDX, en San Francisco, o en Salesforce+ los dƭas 5 y 6 de marzo en la conferencia para desarrolladores sobre la era de agentes de IA. Registrarse ahora.

Examinar la correlaciĆ³n de datos

Objetivos de aprendizaje

DespuƩs de completar esta unidad, podrƔ:

  • Definir quĆ© es la correlaciĆ³n.
  • Distinguir entre correlaciones fuertes y dĆ©biles.

Recorrido hacia la fluidez de los datos

La alfabetizaciĆ³n de datos es la base para usar datos y comunicarse con ellos fĆ”cilmente. 

En el mĆ³dulo Fundamentos de la alfabetizaciĆ³n de datos, se describen las variables cuantitativas como caracterĆ­sticas que pueden medirse en tĆ©rminos numĆ©ricos; por ejemplo, el nĆŗmero de horas que emplea en ver la televisiĆ³n cada dĆ­a, la velocidad medida en millas por hora, el total en pulgadas de lluvia anual en una ciudad, ventas en dĆ³lares y el importe invertido en marketing.

Al examinar las relaciones dentro de los datos, ĀæcĆ³mo se determina el grado de relaciĆ³n entre dos variables, como las ventas y el importe invertido en marketing? ĀæPuede usar una variable para predecir la otra? 

La correlaciĆ³n y la regresiĆ³n son tĆ©cnicas importantes que se utilizan para detectar tendencias y hacer predicciones. Si bien en los anĆ”lisis de datos se usan otras tĆ©cnicas importantes, nos centramos en la forma mĆ”s simple que se utiliza en la IA y el anĆ”lisis de datos: la correlaciĆ³n y regresiĆ³n lineales.

En esta unidad, podrĆ” familiarizarse con el concepto de correlaciĆ³n. Este hace referencia al movimiento asociado de las variables y el grado de relaciĆ³n entre ellas, si existe una. AdemĆ”s, comprenderĆ” de quĆ© modo la correlaciĆ³n mide la asociaciĆ³n, pero no prueba la causalidad. En la siguiente unidad, explorarĆ” cĆ³mo usar la regresiĆ³n lineal para calcular o predecir el valor de una variable en funciĆ³n de otra, ademĆ”s de determinar cĆ³mo se ajusta este modelo para los datos. 

ĀæQuĆ© es la correlaciĆ³n?

La correlaciĆ³n es una tĆ©cnica que permite demostrar si los pares de variables cuantitativas estĆ”n relacionados y cuĆ”l es el grado de relaciĆ³n. 

Nota

En esta unidad, se analiza la correlaciĆ³n de Pearson. Existen otras correlaciones no lineales, que no analizamos aquĆ­.

Por ejemplo, Āæhay una relaciĆ³n entre la cantidad de calorĆ­as consumidas al dĆ­a y el peso corporal? ĀæLas personas que consumen mĆ”s calorĆ­as pesan mĆ”s? La correlaciĆ³n puede indicar en quĆ© medida se relaciona el peso de las personas con su ingesta de calorĆ­as.

La correlaciĆ³n entre el peso y la ingesta de calorĆ­as es un ejemplo simple, pero es posible que los datos con los que se trabaja a veces no contengan las relaciones esperadas. Otras veces, puede sospechar que existen correlaciones, pero no saber cuĆ”les son las mĆ”s fuertes. El anĆ”lisis de correlaciones le permite comprender sus datos.

Al comenzarlo, puede crear un diagrama de dispersiĆ³n para investigar la relaciĆ³n entre dos variables cuantitativas. Las variables se representan como coordinadas cartesianas e indican dĆ³nde se encuentra cada punto a lo largo del eje X horizontal y a lo alto en el eje Y vertical. En el diagrama de dispersiĆ³n que se muestra a continuaciĆ³n, verĆ” la relaciĆ³n entre las ventas y el importe invertido en marketing. Parece que existe una correlaciĆ³n: A medida que una variable aumenta, la otra tambiĆ©n lo hace.

Diagrama de dispersiĆ³n que indica una correlaciĆ³n entre dos variables cuantitativas

Nota

Los conceptos de esta unidad fueron adaptados del trabajo de David M. Lane Introduction to Statistics (en inglĆ©s), disponible para el pĆŗblico en lĆ­nea.

CorrelaciĆ³n y causalidad

Ahora que sabe cĆ³mo se define la correlaciĆ³n y cĆ³mo se la representa grĆ”ficamente, veamos cĆ³mo comprender mejor este concepto. 

En primer lugar, es importante saber que la correlaciĆ³n nunca demuestra la causalidad

La correlaciĆ³n de Pearson solo indica el grado de relaciĆ³n de forma lineal entre dos variables cuantitativas. No explica el cĆ³mo ni el porquĆ© de esa relaciĆ³n. 

Por ejemplo, las ventas de equipos de aire acondicionado se correlacionan con las ventas de protector solar. Las personas no van a comprar equipos de aire acondicionado porque compraron protector solar, o viceversa. La causa de ambas compras es el clima caluroso.

ĀæCĆ³mo se mide la correlaciĆ³n?

La correlaciĆ³n de Pearson, tambiĆ©n conocida como coeficiente de correlaciĆ³n, se utiliza para medir la fuerza y la direcciĆ³n (positiva o negativa) de la relaciĆ³n lineal entre dos variables cuantitativas. Cuando se mide la correlaciĆ³n en una muestra de datos, el sĆ­mbolo que se utiliza es la letra r. La r de Pearson puede oscilar entre -1 y 1. 

Cuando r = 1, existe una relaciĆ³n lineal positiva perfecta entre las variables. Esto significa que ambas variables se correlacionan perfectamente a medida que aumentan los valores. Cuando r = -1, significa que hay una relaciĆ³n lineal negativa perfecta entre las variables. En una correlaciĆ³n negativa perfecta, cuando una variable aumenta, la otra disminuye en la misma magnitud.  Cuando r = 0, no hay una relaciĆ³n lineal entre las variables.

Con datos reales, posiblemente no tendrĆ­a valores de r de -1, 0 o 1. 

En general, cuanto mĆ”s cerca estĆ” r de 1 o de -1, mĆ”s fuerte es la correlaciĆ³n, tal como se muestra en la siguiente tabla.

r = CorrelaciĆ³n

de 0,90 a 1

o

de -0,90 a -1

Una correlaciĆ³n muy fuerte

de 0,70 a 0,89

o

de -0,70 a -0,89

Una correlaciĆ³n fuerte

de 0,40 a 0,69

o

de -0,40 a -0,69

Una correlaciĆ³n moderada

de 0,20 a 0,39

o

de -0,20 a -0,39

Una correlaciĆ³n dĆ©bil

de 0 a 0,19

o

de 0 a -0,19

Una correlaciĆ³n muy dĆ©bil o nula

Nota

Algunos recursos de este tema clasifican las correlaciones simplemente como fuertes, moderadas o dƩbiles.

Condiciones para la correlaciĆ³n lineal

Para que las correlaciones sean significativas, debe considerar algunas condiciones: deben usar variables cuantitativas, describir relaciones lineales y tener en cuenta el efecto de los valores atĆ­picos. TambiĆ©n debe comprobar estas condiciones antes de llevar a cabo un anĆ”lisis de correlaciones. 

En 1973, el estadista Francis Anscombe desarrollĆ³ el cuarteto de Anscombe para demostrar la importancia de realizar grĆ”ficos de los datos de manera visual, en lugar de solo realizar pruebas estadĆ­sticas. Las cuatro visualizaciones de su cuarteto muestran la misma ecuaciĆ³n de lĆ­nea de tendencia. El cuarteto ilustra la importancia de las visualizaciones: ayudan a identificar tendencias dentro de los datos, que podrĆ­an estar disimuladas por las pruebas estadĆ­sticas.

En el siguiente ejemplo, solo el diagrama de dispersiĆ³n que se encuentra en la esquina superior izquierda del cuarteto cumple con los criterios de ser lineal y no presentar valores atĆ­picos. El diagrama de dispersiĆ³n ubicado arriba a la derecha no muestra una relaciĆ³n lineal; un modelo no lineal serĆ­a mĆ”s adecuado. Los dos diagramas de dispersiĆ³n en la parte inferior tienen valores atĆ­picos que pueden afectar a los resultados significativamente.  

Cuatro diagramas de dispersiĆ³n, con el diagrama en la esquina superior izquierda resaltado, que muestran una relaciĆ³n lineal sin valores atĆ­picos

Ahora que se ha familiarizado con los conceptos en torno a la tĆ©cnica estadĆ­stica de correlaciĆ³n, ya puede pasar a la siguiente unidad, donde aprenderĆ” sobre la regresiĆ³n lineal.

Recursos

Comparta sus comentarios sobre Trailhead en la Ayuda de Salesforce.

Nos encantarĆ­a conocer su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios cuando quiera desde el sitio de la Ayuda de Salesforce.

MĆ”s informaciĆ³n Continuar para compartir comentarios