Skip to main content
Join the Agentforce Hackathon on Nov. 18-19 to compete for a $20,000 Grand Prize. Sign up now. Terms apply.

Examinar la correlación de datos

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Definir qué es la correlación.
  • Distinguir entre correlaciones fuertes y débiles.

Recorrido hacia la fluidez de los datos

La alfabetización de datos es la base para usar datos y comunicarse con ellos fácilmente. 

En el módulo Fundamentos de la alfabetización de datos, se describen las variables cuantitativas como características que pueden medirse en términos numéricos; por ejemplo, el número de horas que emplea en ver la televisión cada día, la velocidad medida en millas por hora, el total en pulgadas de lluvia anual en una ciudad, ventas en dólares y el importe invertido en marketing.

Al examinar las relaciones dentro de los datos, ¿cómo se determina el grado de relación entre dos variables, como las ventas y el importe invertido en marketing? ¿Puede usar una variable para predecir la otra? 

La correlación y la regresión son técnicas importantes que se utilizan para detectar tendencias y hacer predicciones. Si bien en los análisis de datos se usan otras técnicas importantes, nos centramos en la forma más simple que se utiliza en la IA y el análisis de datos: la correlación y regresión lineales.

En esta unidad, podrá familiarizarse con el concepto de correlación. Este hace referencia al movimiento asociado de las variables y el grado de relación entre ellas, si existe una. Además, comprenderá de qué modo la correlación mide la asociación, pero no prueba la causalidad. En la siguiente unidad, explorará cómo usar la regresión lineal para calcular o predecir el valor de una variable en función de otra, además de determinar cómo se ajusta este modelo para los datos. 

¿Qué es la correlación?

La correlación es una técnica que permite demostrar si los pares de variables cuantitativas están relacionados y cuál es el grado de relación. 

Nota

En esta unidad, se analiza la correlación de Pearson. Existen otras correlaciones no lineales, que no analizamos aquí.

Por ejemplo, ¿hay una relación entre la cantidad de calorías consumidas al día y el peso corporal? ¿Las personas que consumen más calorías pesan más? La correlación puede indicar en qué medida se relaciona el peso de las personas con su ingesta de calorías.

La correlación entre el peso y la ingesta de calorías es un ejemplo simple, pero es posible que los datos con los que se trabaja a veces no contengan las relaciones esperadas. Otras veces, puede sospechar que existen correlaciones, pero no saber cuáles son las más fuertes. El análisis de correlaciones le permite comprender sus datos.

Al comenzarlo, puede crear un diagrama de dispersión para investigar la relación entre dos variables cuantitativas. Las variables se representan como coordinadas cartesianas e indican dónde se encuentra cada punto a lo largo del eje X horizontal y a lo alto en el eje Y vertical. En el diagrama de dispersión que se muestra a continuación, verá la relación entre las ventas y el importe invertido en marketing. Parece que existe una correlación: A medida que una variable aumenta, la otra también lo hace.

Diagrama de dispersión que indica una correlación entre dos variables cuantitativas

Nota

Los conceptos de esta unidad fueron adaptados del trabajo de David M. Lane Introduction to Statistics (en inglés), disponible para el público en línea.

Correlación y causalidad

Ahora que sabe cómo se define la correlación y cómo se la representa gráficamente, veamos cómo comprender mejor este concepto. 

En primer lugar, es importante saber que la correlación nunca demuestra la causalidad

La correlación de Pearson solo indica el grado de relación de forma lineal entre dos variables cuantitativas. No explica el cómo ni el porqué de esa relación. 

Por ejemplo, las ventas de equipos de aire acondicionado se correlacionan con las ventas de protector solar. Las personas no van a comprar equipos de aire acondicionado porque compraron protector solar, o viceversa. La causa de ambas compras es el clima caluroso.

¿Cómo se mide la correlación?

La correlación de Pearson, también conocida como coeficiente de correlación, se utiliza para medir la fuerza y la dirección (positiva o negativa) de la relación lineal entre dos variables cuantitativas. Cuando se mide la correlación en una muestra de datos, el símbolo que se utiliza es la letra r. La r de Pearson puede oscilar entre -1 y 1. 

Cuando r = 1, existe una relación lineal positiva perfecta entre las variables. Esto significa que ambas variables se correlacionan perfectamente a medida que aumentan los valores. Cuando r = -1, significa que hay una relación lineal negativa perfecta entre las variables. En una correlación negativa perfecta, cuando una variable aumenta, la otra disminuye en la misma magnitud.  Cuando r = 0, no hay una relación lineal entre las variables.

Con datos reales, posiblemente no tendría valores de r de -1, 0 o 1. 

En general, cuanto más cerca está r de 1 o de -1, más fuerte es la correlación, tal como se muestra en la siguiente tabla.

r = Correlación

de 0,90 a 1

o

de -0,90 a -1

Una correlación muy fuerte

de 0,70 a 0,89

o

de -0,70 a -0,89

Una correlación fuerte

de 0,40 a 0,69

o

de -0,40 a -0,69

Una correlación moderada

de 0,20 a 0,39

o

de -0,20 a -0,39

Una correlación débil

de 0 a 0,19

o

de 0 a -0,19

Una correlación muy débil o nula

Nota

Algunos recursos de este tema clasifican las correlaciones simplemente como fuertes, moderadas o débiles.

Condiciones para la correlación lineal

Para que las correlaciones sean significativas, debe considerar algunas condiciones: deben usar variables cuantitativas, describir relaciones lineales y tener en cuenta el efecto de los valores atípicos. También debe comprobar estas condiciones antes de llevar a cabo un análisis de correlaciones. 

En 1973, el estadista Francis Anscombe desarrolló el cuarteto de Anscombe para demostrar la importancia de realizar gráficos de los datos de manera visual, en lugar de solo realizar pruebas estadísticas. Las cuatro visualizaciones de su cuarteto muestran la misma ecuación de línea de tendencia. El cuarteto ilustra la importancia de las visualizaciones: ayudan a identificar tendencias dentro de los datos, que podrían estar disimuladas por las pruebas estadísticas.

En el siguiente ejemplo, solo el diagrama de dispersión que se encuentra en la esquina superior izquierda del cuarteto cumple con los criterios de ser lineal y no presentar valores atípicos. El diagrama de dispersión ubicado arriba a la derecha no muestra una relación lineal; un modelo no lineal sería más adecuado. Los dos diagramas de dispersión en la parte inferior tienen valores atípicos que pueden afectar a los resultados significativamente.  

Cuatro diagramas de dispersión, con el diagrama en la esquina superior izquierda resaltado, que muestran una relación lineal sin valores atípicos

Ahora que se ha familiarizado con los conceptos en torno a la técnica estadística de correlación, ya puede pasar a la siguiente unidad, donde aprenderá sobre la regresión lineal.

Recursos

Comparta sus comentarios sobre Trailhead en la Ayuda de Salesforce.

Nos encantaría conocer su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios cuando quiera desde el sitio de la Ayuda de Salesforce.

Más información Continuar para compartir comentarios