Descubra las relaciones mediante la regresiĆ³n lineal
Objetivos de aprendizaje
DespuƩs de completar esta unidad, podrƔ:
- Definir quĆ© es la regresiĆ³n lineal.
- Diferenciar entre caracterĆsticas de correlaciĆ³n y regresiĆ³n lineal.
ĀæQuĆ© es la regresiĆ³n lineal?
En la unidad anterior, aprendiĆ³ que la correlaciĆ³n hace referencia a la direcciĆ³n (positiva o negativa) y a la fuerza (muy fuerte a muy dĆ©bil) de la relaciĆ³n entre dos variables cuantitativas.
Al igual que la correlaciĆ³n, la regresiĆ³n lineal tambiĆ©n muestra la direcciĆ³n y la fuerza de la relaciĆ³n entre dos variables numĆ©ricas; pero, a diferencia de la correlaciĆ³n, la regresiĆ³n tambiĆ©n usa la lĆnea mĆ”s recta a travĆ©s de los puntos de un diagrama de dispersiĆ³n para predecir los valores de Y a partir de los valores de X. Con la correlaciĆ³n, los valores de X e Y son intercambiables. Con la regresiĆ³n, los resultados del anĆ”lisis cambiarĆ”n si se intercambian X e Y.
La lĆnea de regresiĆ³n lineal
Al igual que con las correlaciones, para que las regresiones sean significativas, debe pasar lo siguiente:
- Usan variables cuantitativas.
- Se busca la relaciĆ³n lineal.
- Se tienen en cuenta los valores atĆpicos.
Como con la correlaciĆ³n, la regresiĆ³n lineal se visualiza en un diagrama de dispersiĆ³n.
La regresiĆ³n lineal en el diagrama de dispersiĆ³n es la lĆnea mĆ”s recta a travĆ©s de los puntos del diagrama. En otras palabras, es una lĆnea que pasa a travĆ©s de los puntos con la menor distancia posible desde cada punto a la lĆnea.
ĀæPor quĆ© es Ćŗtil y relevante esta lĆnea? El cĆ”lculo de regresiĆ³n lineal permite calcular, o predecir, el valor de Y si tenemos un valor de X conocido.
Para comprenderlo mejor, veamos un ejemplo.
Ejemplo de regresiĆ³n
Supongamos que desea predecir cuĆ”nto dinero deberĆ” gastar para comprar una vivienda de 1500 pies cuadrados. Utilicemos una regresiĆ³n lineal para predecirlo.
- Ubique la variable que desea predecir, los precios de viviendas, en el eje Y (tambiƩn conocida como la variable dependiente).
- Ubique la variable a partir de la cual basa la predicciĆ³n, los metros cuadrados, en el eje X (tambiĆ©n conocida como la variable independiente).
Este es un diagrama de dispersiĆ³n que muestra los precios de viviendas (eje Y) y los pies cuadrados (eje X).
El diagrama de dispersiĆ³n muestra que las viviendas con mĆ”s metros cuadrados tienden a tener un valor mĆ”s alto, Āæpero cuĆ”nto dinero tendrĆa que invertir en una casa que mide 1500 pies cuadrados?
Para responder esa pregunta, crea una lĆnea a travĆ©s de los puntos. Esto es una regresiĆ³n lineal. La lĆnea de regresiĆ³n lo ayudarĆ” a predecir cuĆ”nto deberĆ” gastar en una vivienda tĆpica con una cierta superficie. En este ejemplo, puede ver la ecuaciĆ³n de la lĆnea de regresiĆ³n.
La ecuaciĆ³n de la lĆnea es Y = 113*X + 98 653 (redondeado).
ĀæQuĆ© significa esta ecuaciĆ³n? Si compra una propiedad sin pies cuadrados construidos, por ejemplo, un solar vacĆo, el precio serĆa de USD 98 653. Estos son los pasos para resolver la ecuaciĆ³n.
Para hallar el valor de Y, multiplique el valor de X por 113 y agregue 98 653. En este caso, no hay pies cuadrados, por lo que el valor de X es 0.
- Y = (113 * 0) + 98 653
- Y = 0 + 98 653
- Y = 98 653
El valor 98 653 se denomina intersecciĆ³n en Y porque es el punto donde la lĆnea cruza, o intercepta, al eje Y. Es el valor de Y cuando X es igual a 0.
El nĆŗmero 113 es la pendiente de la lĆnea. La pendiente es un nĆŗmero que describe tanto la direcciĆ³n como la inclinaciĆ³n de la lĆnea. En este caso, la pendiente pronostica que, para cada pie cuadrado adicional, el precio de la vivienda aumentarĆ” USD 113.
Por lo tanto, esto es lo que costarĆ” una vivienda de 1500 pies cuadrados:
Y = (113 * 1500) + 98 653 = USD 268 153
Veamos nuevamente el diagrama de dispersiĆ³n. Las marcas azules son los datos reales. Como verĆ”, dispone de datos para viviendas de entre 1100 y 2450 pies cuadrados.
Tenga en cuenta que esta ecuaciĆ³n no puede usarse para predecir el precio de todas las viviendas. Dado que una casa de 500 o de 10 000 pies cuadrados se encuentra fuera del rango de datos reales, debe tener precauciĆ³n a la hora de hacer predicciones usando esta ecuaciĆ³n a partir de esos valores.
Valor de r al cuadrado
AdemĆ”s de la ecuaciĆ³n, en este ejemplo, tambiĆ©n vemos un valor de r al cuadrado (tambiĆ©n conocido como "coeficiente de determinaciĆ³n").
Este valor es una mediciĆ³n estadĆstica que indica quĆ© tanto se acercan los datos a la lĆnea de regresiĆ³n o cuĆ”n adecuado es el modelo para sus observaciones. Si los datos estĆ”n perfectamente sobre la lĆnea, el valor de r al cuadrado es 1 o un 100 %. Esto significa que el modelo se ajusta perfectamente (todos los puntos de datos observados estĆ”n sobre la lĆnea).
Para nuestros datos de precios de viviendas, el valor de r al cuadrado es 0,70 o 70 %.
Diferencias entre una regresiĆ³n lineal y una correlaciĆ³n
Es posible que ahora se pregunte cĆ³mo distinguir entre una regresiĆ³n lineal y una correlaciĆ³n. Consulte un resumen de cada concepto en la tabla que se muestra a continuaciĆ³n.
RegresiĆ³n lineal | CorrelaciĆ³n |
---|---|
Muestra un modelo lineal y una predicciĆ³n de Y a partir de X. |
Muestra una relaciĆ³n lineal entre dos valores. |
Usa r al cuadrado para medir el porcentaje de variaciĆ³n que explica el modelo. |
Usa el valor de r para medir la fuerza y la direcciĆ³n de la correlaciĆ³n. |
No usa X e Y como valores intercambiables (porque Y se predice a partir de X). |
Usa X e Y como valores intercambiables. |
Familiarizarse con los conceptos estadĆsticos de correlaciĆ³n y regresiĆ³n le permite explorar y comprender los datos con los que trabaja al examinar las relaciones entre ellos.