Descubra las relaciones mediante la regresión lineal
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Definir qué es la regresión lineal.
- Diferenciar entre características de correlación y regresión lineal.
¿Qué es la regresión lineal?
En la unidad anterior, aprendió que la correlación hace referencia a la dirección (positiva o negativa) y a la fuerza (muy fuerte a muy débil) de la relación entre dos variables cuantitativas.
Al igual que la correlación, la regresión lineal también muestra la dirección y la fuerza de la relación entre dos variables numéricas; sin embargo, a diferencia de la correlación, la regresión usa la línea más recta a través de los puntos de un diagrama de dispersión para predecir los valores de Y a partir de los valores de X. Con la correlación, los valores de X e Y son intercambiables. Con la regresión, los resultados del análisis cambiarán si se intercambian X e Y.
La línea de regresión lineal
Al igual que con las correlaciones, para que las regresiones sean significativas, debe hacer lo siguiente:
- Utilizar variables cuantitativas
- Buscar la relación lineal
- Tener en cuenta los valores atípicos
Al igual que la correlación, la regresión lineal se visualiza en un diagrama de dispersión.
La regresión lineal en el diagrama de dispersión es la línea más recta a través de los puntos del diagrama. En otras palabras, es una línea que pasa a través de los puntos con la menor distancia posible desde cada punto a la línea.
¿Por qué es útil y práctica esta línea? El cálculo de regresión lineal permite calcular o predecir el valor de Y si tenemos un valor de X conocido.
Para comprenderlo mejor, veamos un ejemplo.
Ejemplo de regresión
Supongamos que desea predecir cuánto dinero deberá gastar para comprar una vivienda de unos 140 metros cuadrados. Utilicemos una regresión lineal para predecirlo.
- Coloque la variable que desea predecir, los precios de viviendas, en el eje Y (también conocida como la variable dependiente).
- Coloque la variable a partir de la cual basa la predicción, los metros cuadrados, en el eje X (también conocida como la variable independiente).
Aquí tiene un diagrama de dispersión que muestra los precios de viviendas (eje Y) y los metros cuadrados (eje X).
El diagrama de dispersión muestra que las viviendas con más metros cuadrados tienden a tener un valor más alto, ¿pero cuánto dinero tendría que invertir en una casa que mide unos 140 metros cuadrados?
Para responder a esa pregunta, cree una línea a través de los puntos. Esto es una regresión lineal. La línea de regresión le ayudará a predecir cuánto deberá gastar en una vivienda típica con una cierta superficie. En este ejemplo, puede ver la ecuación de la línea de regresión.
La ecuación de la línea es Y = 113*X + 98 653 (con redondeo).
¿Qué significa esta ecuación? Si compra una propiedad sin metros cuadrados construidos, por ejemplo, un solar vacío, el precio sería de 98 653 $. Estos son los pasos para resolver la ecuación.
Para hallar el valor de Y, multiplique el valor de X por 113 y sume 98 653. En este caso, no hay metros cuadrados, por lo que el valor de X es 0.
- Y = (113 * 0) + 98 653
- Y = 0 + 98 653
- Y = 98 653
El valor 98 653 se denomina intersección en Y porque es el punto donde la línea cruza, o intercepta, al eje Y. Es el valor de Y cuando X es igual a 0.
El número 113 es la pendiente de la línea. La pendiente es un número que describe tanto la dirección como la inclinación de la línea. En este caso, la pendiente pronostica que, para cada metro cuadrado adicional, el precio de la vivienda aumentará 113 $.
Por lo tanto, esto es lo que costará una vivienda de unos 140 metros cuadrados:
Y = (113 * 1500) + 98 653 = 268 153 $
Veamos nuevamente el diagrama de dispersión. Las marcas azules son los datos reales. Como verá, dispone de datos para viviendas de entre 100 y 230 metros cuadrados.
Tenga en cuenta que esta ecuación no puede usarse para predecir el precio de todas las viviendas. Dado que una casa de 46 o de 930 metros cuadrados se encuentra fuera del rango de datos reales, debe tener precaución a la hora de hacer predicciones usando esta ecuación a partir de esos valores.
Valor de r al cuadrado
Además de la ecuación, en este ejemplo, también vemos un valor de r al cuadrado (también conocido como coeficiente de determinación).
Este valor es una medición estadística que indica cuánto se acercan los datos a la línea de regresión o cómo se ajusta el modelo con sus observaciones. Si los datos están perfectamente sobre la línea, el valor de r al cuadrado es 1 o un 100 %. Esto significa que el modelo se ajusta perfectamente (todos los puntos de datos observados están sobre la línea).
Para nuestros datos de precios de viviendas, el valor de r al cuadrado es 0,70 o 70 %.
Diferencias entre una regresión lineal y una correlación
Es posible que ahora se pregunte cómo distinguir entre una regresión lineal y una correlación. Consulte la siguiente tabla para ver un resumen de cada concepto.
Regresión lineal | Correlación |
---|---|
Muestra un modelo lineal y una predicción de Y a partir de X. |
Muestra una relación lineal entre dos valores. |
Usa r al cuadrado para medir el porcentaje de variación que explica el modelo. |
Usa el valor de r para medir la fuerza y la dirección de la correlación. |
No usa X e Y como valores intercambiables (porque Y se predice a partir de X). |
Usa X e Y como valores intercambiables. |
Familiarizarse con los conceptos estadísticos de correlación y regresión le permite explorar y comprender los datos con los que trabaja al examinar las relaciones entre ellos.