Descubra las relaciones mediante la regresión lineal
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Definir qué es la regresión lineal.
- Diferenciar entre características de correlación y regresión lineal.
¿Qué es la regresión lineal?
En la unidad anterior, aprendió que la correlación hace referencia a la dirección (positiva o negativa) y a la fuerza (muy fuerte a muy débil) de la relación entre dos variables cuantitativas.
Al igual que la correlación, la regresión lineal también muestra la dirección y la fuerza de la relación entre dos variables numéricas; pero, a diferencia de la correlación, la regresión también usa la línea más recta a través de los puntos de un diagrama de dispersión para predecir los valores de Y a partir de los valores de X. Con la correlación, los valores de X e Y son intercambiables. Con la regresión, los resultados del análisis cambiarán si se intercambian X e Y.
La línea de regresión lineal
Al igual que con las correlaciones, para que las regresiones sean significativas, debe pasar lo siguiente:
- Usan variables cuantitativas.
- Se busca la relación lineal.
- Se tienen en cuenta los valores atípicos.
Como con la correlación, la regresión lineal se visualiza en un diagrama de dispersión.
La regresión lineal en el diagrama de dispersión es la línea más recta a través de los puntos del diagrama. En otras palabras, es una línea que pasa a través de los puntos con la menor distancia posible desde cada punto a la línea.
¿Por qué es útil y relevante esta línea? El cálculo de regresión lineal permite calcular, o predecir, el valor de Y si tenemos un valor de X conocido.
Para comprenderlo mejor, veamos un ejemplo.
Ejemplo de regresión
Supongamos que desea predecir cuánto dinero deberá gastar para comprar una vivienda de 1500 pies cuadrados. Utilicemos una regresión lineal para predecirlo.
- Ubique la variable que desea predecir, los precios de viviendas, en el eje Y (también conocida como la variable dependiente).
- Ubique la variable a partir de la cual basa la predicción, los metros cuadrados, en el eje X (también conocida como la variable independiente).
Este es un diagrama de dispersión que muestra los precios de viviendas (eje Y) y los pies cuadrados (eje X).
El diagrama de dispersión muestra que las viviendas con más metros cuadrados tienden a tener un valor más alto, ¿pero cuánto dinero tendría que invertir en una casa que mide 1500 pies cuadrados?
Para responder esa pregunta, crea una línea a través de los puntos. Esto es una regresión lineal. La línea de regresión lo ayudará a predecir cuánto deberá gastar en una vivienda típica con una cierta superficie. En este ejemplo, puede ver la ecuación de la línea de regresión.
La ecuación de la línea es Y = 113*X + 98 653 (redondeado).
¿Qué significa esta ecuación? Si compra una propiedad sin pies cuadrados construidos, por ejemplo, un solar vacío, el precio sería de USD 98 653. Estos son los pasos para resolver la ecuación.
Para hallar el valor de Y, multiplique el valor de X por 113 y agregue 98 653. En este caso, no hay pies cuadrados, por lo que el valor de X es 0.
- Y = (113 * 0) + 98 653
- Y = 0 + 98 653
- Y = 98 653
El valor 98 653 se denomina intersección en Y porque es el punto donde la línea cruza, o intercepta, al eje Y. Es el valor de Y cuando X es igual a 0.
El número 113 es la pendiente de la línea. La pendiente es un número que describe tanto la dirección como la inclinación de la línea. En este caso, la pendiente pronostica que, para cada pie cuadrado adicional, el precio de la vivienda aumentará USD 113.
Por lo tanto, esto es lo que costará una vivienda de 1500 pies cuadrados:
Y = (113 * 1500) + 98 653 = USD 268 153
Veamos nuevamente el diagrama de dispersión. Las marcas azules son los datos reales. Como verá, dispone de datos para viviendas de entre 1100 y 2450 pies cuadrados.
Tenga en cuenta que esta ecuación no puede usarse para predecir el precio de todas las viviendas. Dado que una casa de 500 o de 10 000 pies cuadrados se encuentra fuera del rango de datos reales, debe tener precaución a la hora de hacer predicciones usando esta ecuación a partir de esos valores.
Valor de r al cuadrado
Además de la ecuación, en este ejemplo, también vemos un valor de r al cuadrado (también conocido como "coeficiente de determinación").
Este valor es una medición estadística que indica qué tanto se acercan los datos a la línea de regresión o cuán adecuado es el modelo para sus observaciones. Si los datos están perfectamente sobre la línea, el valor de r al cuadrado es 1 o un 100 %. Esto significa que el modelo se ajusta perfectamente (todos los puntos de datos observados están sobre la línea).
Para nuestros datos de precios de viviendas, el valor de r al cuadrado es 0,70 o 70 %.
Diferencias entre una regresión lineal y una correlación
Es posible que ahora se pregunte cómo distinguir entre una regresión lineal y una correlación. Consulte un resumen de cada concepto en la tabla que se muestra a continuación.
Regresión lineal | Correlación |
---|---|
Muestra un modelo lineal y una predicción de Y a partir de X. |
Muestra una relación lineal entre dos valores. |
Usa r al cuadrado para medir el porcentaje de variación que explica el modelo. |
Usa el valor de r para medir la fuerza y la dirección de la correlación. |
No usa X e Y como valores intercambiables (porque Y se predice a partir de X). |
Usa X e Y como valores intercambiables. |
Familiarizarse con los conceptos estadísticos de correlación y regresión le permite explorar y comprender los datos con los que trabaja al examinar las relaciones entre ellos.