Skip to main content
Join the Agentforce Hackathon on Nov. 18-19 to compete for a $20,000 Grand Prize. Sign up now. Terms apply.

Examine la correlación de datos

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

  • Definir qué es la correlación.
  • Distinguir entre correlaciones fuertes y débiles.

Recorrido hacia la fluidez de los datos

La alfabetización de datos es la base para usar y comunicarse con datos fácilmente. 

En el módulo Fundamentos de la alfabetización de datos, se describen las variables cuantitativas como características que pueden medirse en términos numéricos; por ejemplo, el número de horas que dedica a ver la televisión cada día, la velocidad medida en millas por hora, el total en pulgadas de lluvia anual en una ciudad, ventas en dólares y el importe invertido en marketing.

Al examinar las relaciones dentro de los datos, ¿cómo se determina qué tan estrechamente relacionadas están dos variables, como las ventas y el importe invertido en marketing? ¿Puede usar una variable para predecir la otra? 

La correlación y la regresión son técnicas importantes que se utilizan para detectar tendencias y hacer predicciones. Si bien en los análisis de datos se usan otras técnicas importantes, nos centramos en la forma más simple que se utiliza en la IA y el análisis de datos: la correlación y regresión lineales.

En esta unidad, podrá familiarizarse con el concepto de correlación. Este hace referencia al movimiento asociado de las variables y cuán estrecha es la relación entre ellas, si existe una. Además, comprenderá de qué modo la correlación mide la asociación, pero no prueba la causalidad. En la siguiente unidad, explorará cómo usar la regresión lineal para calcular o predecir el valor de una variable en función de otra, además de determinar cuán adecuado es el modelo para los datos. 

¿Qué es la correlación?

La correlación es una técnica que permite demostrar si los pares de variables cuantitativas están relacionados y cuán estrechamente. 

Nota

En esta unidad, se analiza la correlación de Pearson. Existen otras correlaciones no lineales, que no analizamos aquí.

Por ejemplo, ¿hay una relación entre la cantidad de calorías consumidas al día y el peso corporal? ¿Las personas que consumen más calorías pesan más? La correlación puede indicar qué tanto se relaciona el peso de las personas con su ingesta de calorías.

La correlación entre el peso y la ingesta de calorías es un ejemplo simple, pero es posible que los datos con los que se trabaja a veces no contengan las relaciones esperadas. Otras veces, puede sospechar que existen correlaciones, pero no saber cuáles son las más fuertes. El análisis de correlaciones le permite comprender sus datos.

Al comenzarlo, puede crear un diagrama de dispersión para investigar la relación entre dos variables cuantitativas. Las variables se representan como coordinadas cartesianas e indican dónde se encuentra cada punto a lo largo del eje X horizontal y a lo alto en el eje Y vertical. En el diagrama de dispersión que se muestra a continuación, verá la relación entre las ventas y el importe invertido en marketing. Parece que existe una correlación: a medida que una variable aumenta, la otra también lo hace.

Diagrama de dispersión que indica una correlación entre dos variables cuantitativas

Nota

Los conceptos en esta unidad fueron adaptados del trabajo de David M. Lane Introducción a la estadística (en inglés), disponible para el público en línea.

Correlación y causalidad

Ahora que sabe cómo se define la correlación y cómo se la representa gráficamente, veamos cómo comprender mejor este concepto. 

En primer lugar, es importante saber que la correlación nunca demuestra la causalidad

La correlación de Pearson solo indica cuán estrechamente se relacionan de forma lineal dos variables cuantitativas. No explica el cómo ni el porqué de esa relación. 

Por ejemplo, las ventas de equipos de aire acondicionado se correlacionan con las ventas de protector solar. Las personas no van a comprar equipos de aire acondicionado porque compraron protector solar, o viceversa. La causa de ambas compras es el clima cálido.

¿Cómo se mide la correlación?

La correlación de Pearson, también conocida como coeficiente de correlación de Pearson, se utiliza para medir la fuerza y la dirección (positiva o negativa) de la relación lineal entre dos variables cuantitativas. Cuando se mide la correlación en una muestra de datos, el símbolo que se utiliza es la letra r. La r de Pearson puede oscilar entre -1 y 1. 

Cuando r es igual a 1, existe una relación lineal positiva perfecta entre las variables. Esto significa que ambas variables se correlacionan perfectamente a medida que aumentan los valores. Cuando r es igual a -1, significa que hay una relación linear negativa perfecta entre las variables. En una correlación negativa perfecta, cuando una variable aumenta, la otra disminuye en la misma magnitud.  Cuando r es igual a 0, no hay una relación lineal entre las variables.

Con datos reales, posiblemente no tendría valores de r de -1, 0 o 1. 

En general, cuanto más cerca está r de 1 o de -1, más fuerte es la correlación, tal como se muestra en la siguiente tabla.

r = Correlación

“De 0.90 to 1”,

O bien

“De -0.90 to -1”,

Una correlación muy fuerte

“De 0.70 to 0.89”,

O bien

“De -0.70 to -0.89”,

Una correlación fuerte

“De 0.40 to 0.69”,

O bien

“De -0.40 to -0.69”,

Una correlación moderada

“De 0.20 to 0.39”,

O bien

“De -0.20 to -0.39”,

Una correlación débil

“De 0 to 0.19”,

O bien

“De 0 to -0.19”,

Una correlación muy débil o nula

Nota

Algunos recursos de este tema clasifican las correlaciones simplemente como fuertes, moderadas o débiles.

Condiciones para la correlación lineal

Para que las correlaciones sean significativas, debe tener en cuenta algunas condiciones: deben usar variables cuantitativas, describir relaciones lineales y tener en cuenta el efecto de cualquier valor atípico. También debe comprobar estas condiciones antes de llevar a cabo un análisis de correlaciones. 

En 1973, el estadista Francis Anscombe desarrolló el cuarteto de Anscombe para demostrar la importancia de graficar los datos de manera visual, en lugar de solo realizar pruebas estadísticas. Las cuatro visualizaciones de su cuarteto muestran la misma ecuación de línea de tendencia. El cuarteto ilustra la importancia de las visualizaciones: ayudan a identificar tendencias dentro de los datos, que podrían estar disimuladas por las pruebas estadísticas.

En el ejemplo a continuación, solo el diagrama de dispersión que se encuentra en la esquina superior izquierda del cuarteto cumple con los criterios de ser lineal y no presentar valores atípicos. El diagrama de dispersión ubicado arriba y a la derecha no muestra una relación lineal; un modelo no lineal sería más adecuado. Los dos diagramas de dispersión en la parte inferior tienen valores atípicos que puedan afectar los resultados significativamente.  

Cuatro diagramas de dispersión, con el diagrama en la esquina superior izquierda resaltado, que muestran una relación lineal sin valores atípicos.

Ahora que se familiarizó con los conceptos en torno a la técnica estadística de correlación, ya puede avanzar a la próxima unidad donde aprenderá sobre la regresión lineal.

Recursos

Comparta sus comentarios de Trailhead en la Ayuda de Salesforce.

Nos encantaría saber más sobre su experiencia con Trailhead. Ahora puede acceder al nuevo formulario de comentarios en cualquier momento en el sitio de Ayuda de Salesforce.

Más información Continuar a Compartir comentarios