Descubra las relaciones mediante la regresión lineal

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Definir qué es la regresión lineal.
Diferenciar entre características de correlación y regresión lineal.

¿Qué es la regresión lineal?

En la unidad anterior, aprendió que la correlación hace referencia a la dirección (positiva o negativa) y a la fuerza (muy fuerte a muy débil) de la relación entre dos variables cuantitativas.

Al igual que la correlación, la regresión lineal también muestra la dirección y la fuerza de la relación entre dos variables numéricas; pero, a diferencia de la correlación, la regresión también usa la línea más recta a través de los puntos de un diagrama de dispersión para predecir los valores de Y a partir de los valores de X. Con la correlación, los valores de X e Y son intercambiables. Con la regresión, los resultados del análisis cambiarán si se intercambian X e Y.

Los conceptos de esta unidad están adaptados de Introducción a la estadística.

La línea de regresión lineal

Al igual que con las correlaciones, para que las regresiones sean significativas, debe pasar lo siguiente:

Usan variables cuantitativas.
Se busca la relación lineal.
Se tienen en cuenta los valores atípicos.

Como con la correlación, la regresión lineal se visualiza en un diagrama de dispersión.

La regresión lineal en el diagrama de dispersión es la línea más recta a través de los puntos del diagrama. En otras palabras, es una línea que pasa a través de los puntos con la menor distancia posible desde cada punto a la línea.

¿Por qué es útil y relevante esta línea? El cálculo de regresión lineal permite calcular, o predecir, el valor de Y si tenemos un valor de X conocido.

Para comprenderlo mejor, veamos un ejemplo.

Ejemplo de regresión

Supongamos que desea predecir cuánto dinero deberá gastar para comprar una vivienda de 1500 pies cuadrados. Utilicemos una regresión lineal para predecirlo.

Ubique la variable que desea predecir, los precios de viviendas, en el eje Y (también conocida como la variable dependiente).
Ubique la variable a partir de la cual basa la predicción, los metros cuadrados, en el eje X (también conocida como la variable independiente).

Este es un diagrama de dispersión que muestra los precios de viviendas (eje Y) y los pies cuadrados (eje X).

Un diagrama de dispersión con marcas azules que muestra los precios de viviendas (eje Y) y los pies cuadrados (eje X).

El diagrama de dispersión muestra que las viviendas con más metros cuadrados tienden a tener un valor más alto, ¿pero cuánto dinero tendría que invertir en una casa que mide 1500 pies cuadrados?

Para responder esa pregunta, crea una línea a través de los puntos. Esto es una regresión lineal. La línea de regresión lo ayudará a predecir cuánto deberá gastar en una vivienda típica con una cierta superficie. En este ejemplo, puede ver la ecuación de la línea de regresión.

La ecuación de la línea de regresión aparece resaltada.

La ecuación de la línea es Y = 113*X + 98 653 (redondeado).

Quizás se pregunte cómo encontramos los números específicos para la ecuación de línea. Mientras que usted puede calcular la pendiente y la intersección a mano, existen herramientas modernas como Tableau para hacer el trabajo pesado. Tableau analiza los puntos de datos con un método llamado mínimos cuadrados ordinarios y encuentra la “línea de mejor ajuste” al instante. Simplemente, debe arrastrar una Línea de tendencia a su gráfico, y el software se encarga de los cálculos complejos para darle una ecuación precisa en segundos.

¿Qué significa esta ecuación? Si compra una propiedad sin pies cuadrados construidos, por ejemplo, un solar vacío, el precio sería de USD 98 653. Estos son los pasos para resolver la ecuación.

Para hallar el valor de Y, multiplique el valor de X por 113 y agregue 98 653. En este caso, no hay pies cuadrados, por lo que el valor de X es 0.

Y = (113 * 0) + 98 653
Y = 0 + 98 653
Y = 98 653

El valor 98 653 se denomina intersección en Y porque es el punto donde la línea cruza, o intercepta, al eje Y. Es el valor de Y cuando X es igual a 0.

El número 113 es la pendiente de la línea. La pendiente es un número que describe tanto la dirección como la inclinación de la línea. En este caso, la pendiente pronostica que, para cada pie cuadrado adicional, el precio de la vivienda aumentará USD 113.

Por lo tanto, esto es lo que costará una vivienda de 1500 pies cuadrados:

Y = (113 * 1500) + 98 653 = USD 268 153

Veamos nuevamente el diagrama de dispersión. Las marcas azules son los datos reales. Como verá, dispone de datos para viviendas de entre 1100 y 2450 pies cuadrados.

Diagrama de dispersión con marcas azules, una línea de regresión gris y líneas naranjas que muestran dónde se encuentran X e Y en la línea de regresión

Tenga en cuenta que esta ecuación no puede usarse para predecir el precio de todas las viviendas. Dado que una casa de 5,000 o de 10 000 pies cuadrados se encuentra fuera del rango de datos reales, debe tener precaución a la hora de hacer predicciones usando esta ecuación a partir de esos valores.

Valor de r al cuadrado

Además de la ecuación, en este ejemplo, también vemos un valor de r al cuadrado (también conocido como "coeficiente de determinación").

El valor de r al cuadrado para la línea de regresión aparece resaltado.

Este valor es una medición estadística que indica qué tanto se acercan los datos a la línea de regresión o cuán adecuado es el modelo para sus observaciones. Si los datos están perfectamente sobre la línea, el valor de r al cuadrado es 1 o un 100 %. Esto significa que el modelo se ajusta perfectamente (todos los puntos de datos observados están sobre la línea).

Para nuestros datos de precios de viviendas, el valor de r al cuadrado es 0,70 o 70 %.

Diferencias entre una regresión lineal y una correlación

Es posible que ahora se pregunte cómo distinguir entre una regresión lineal y una correlación. Consulte un resumen de cada concepto en la tabla que se muestra a continuación.

Regresión lineal	Correlación
Muestra un modelo lineal y una predicción de Y a partir de X.	Muestra una relación lineal entre dos valores.
Usa r al cuadrado para medir el porcentaje de variación que explica el modelo.	Usa el valor de r para medir la fuerza y la dirección de la correlación.
No usa X e Y como valores intercambiables (porque Y se predice a partir de X).	Usa X e Y como valores intercambiables.

Familiarizarse con los conceptos estadísticos de correlación y regresión le permite explorar y comprender los datos con los que trabaja al examinar las relaciones entre ellos.

Recursos

Libro: Educación sobre estadística en línea: Curso de estudio multimedia interactivo, 2020.

Estimación de tiempo

Temas

¿Necesita ayuda?

Recursos de Tableau