Descubra las relaciones mediante la regresiĆ³n lineal
Objetivos de aprendizaje
DespuƩs de completar esta unidad, podrƔ:
- Definir quĆ© es la regresiĆ³n lineal.
- Diferenciar entre caracterĆsticas de correlaciĆ³n y regresiĆ³n lineal.
ĀæQuĆ© es la regresiĆ³n lineal?
En la unidad anterior, aprendiĆ³ que la correlaciĆ³n hace referencia a la direcciĆ³n (positiva o negativa) y a la fuerza (muy fuerte a muy dĆ©bil) de la relaciĆ³n entre dos variables cuantitativas.
Al igual que la correlaciĆ³n, la regresiĆ³n lineal tambiĆ©n muestra la direcciĆ³n y la fuerza de la relaciĆ³n entre dos variables numĆ©ricas; sin embargo, a diferencia de la correlaciĆ³n, la regresiĆ³n usa la lĆnea mĆ”s recta a travĆ©s de los puntos de un diagrama de dispersiĆ³n para predecir los valores de Y a partir de los valores de X. Con la correlaciĆ³n, los valores de X e Y son intercambiables. Con la regresiĆ³n, los resultados del anĆ”lisis cambiarĆ”n si se intercambian X e Y.
La lĆnea de regresiĆ³n lineal
Al igual que con las correlaciones, para que las regresiones sean significativas, debe hacer lo siguiente:
- Utilizar variables cuantitativas
- Buscar la relaciĆ³n lineal
- Tener en cuenta los valores atĆpicos
Al igual que la correlaciĆ³n, la regresiĆ³n lineal se visualiza en un diagrama de dispersiĆ³n.
La regresiĆ³n lineal en el diagrama de dispersiĆ³n es la lĆnea mĆ”s recta a travĆ©s de los puntos del diagrama. En otras palabras, es una lĆnea que pasa a travĆ©s de los puntos con la menor distancia posible desde cada punto a la lĆnea.
ĀæPor quĆ© es Ćŗtil y prĆ”ctica esta lĆnea? El cĆ”lculo de regresiĆ³n lineal permite calcular o predecir el valor de Y si tenemos un valor de X conocido.
Para comprenderlo mejor, veamos un ejemplo.
Ejemplo de regresiĆ³n
Supongamos que desea predecir cuĆ”nto dinero deberĆ” gastar para comprar una vivienda de unos 140 metros cuadrados. Utilicemos una regresiĆ³n lineal para predecirlo.
- Coloque la variable que desea predecir, los precios de viviendas, en el eje Y (tambiƩn conocida como la variable dependiente).
- Coloque la variable a partir de la cual basa la predicciĆ³n, los metros cuadrados, en el eje X (tambiĆ©n conocida como la variable independiente).
AquĆ tiene un diagrama de dispersiĆ³n que muestra los precios de viviendas (eje Y) y los metros cuadrados (eje X).
El diagrama de dispersiĆ³n muestra que las viviendas con mĆ”s metros cuadrados tienden a tener un valor mĆ”s alto, Āæpero cuĆ”nto dinero tendrĆa que invertir en una casa que mide unos 140 metros cuadrados?
Para responder a esa pregunta, cree una lĆnea a travĆ©s de los puntos. Esto es una regresiĆ³n lineal. La lĆnea de regresiĆ³n le ayudarĆ” a predecir cuĆ”nto deberĆ” gastar en una vivienda tĆpica con una cierta superficie. En este ejemplo, puede ver la ecuaciĆ³n de la lĆnea de regresiĆ³n.
La ecuaciĆ³n de la lĆnea es Y = 113*X + 98 653 (con redondeo).
ĀæQuĆ© significa esta ecuaciĆ³n? Si compra una propiedad sin metros cuadrados construidos, por ejemplo, un solar vacĆo, el precio serĆa de 98 653 $. Estos son los pasos para resolver la ecuaciĆ³n.
Para hallar el valor de Y, multiplique el valor de X por 113 y sume 98 653. En este caso, no hay metros cuadrados, por lo que el valor de X es 0.
- Y = (113 * 0) + 98 653
- Y = 0 + 98 653
- Y = 98 653
El valor 98 653 se denomina intersecciĆ³n en Y porque es el punto donde la lĆnea cruza, o intercepta, al eje Y. Es el valor de Y cuando X es igual a 0.
El nĆŗmero 113 es la pendiente de la lĆnea. La pendiente es un nĆŗmero que describe tanto la direcciĆ³n como la inclinaciĆ³n de la lĆnea. En este caso, la pendiente pronostica que, para cada metro cuadrado adicional, el precio de la vivienda aumentarĆ” 113 $.
Por lo tanto, esto es lo que costarĆ” una vivienda de unos 140 metros cuadrados:
Y = (113 * 1500) + 98 653 = 268 153 $
Veamos nuevamente el diagrama de dispersiĆ³n. Las marcas azules son los datos reales. Como verĆ”, dispone de datos para viviendas de entre 100 y 230 metros cuadrados.
Tenga en cuenta que esta ecuaciĆ³n no puede usarse para predecir el precio de todas las viviendas. Dado que una casa de 46 o de 930 metros cuadrados se encuentra fuera del rango de datos reales, debe tener precauciĆ³n a la hora de hacer predicciones usando esta ecuaciĆ³n a partir de esos valores.
Valor de r al cuadrado
AdemĆ”s de la ecuaciĆ³n, en este ejemplo, tambiĆ©n vemos un valor de r al cuadrado (tambiĆ©n conocido como coeficiente de determinaciĆ³n).
Este valor es una mediciĆ³n estadĆstica que indica cuĆ”nto se acercan los datos a la lĆnea de regresiĆ³n o cĆ³mo se ajusta el modelo con sus observaciones. Si los datos estĆ”n perfectamente sobre la lĆnea, el valor de r al cuadrado es 1 o un 100 %. Esto significa que el modelo se ajusta perfectamente (todos los puntos de datos observados estĆ”n sobre la lĆnea).
Para nuestros datos de precios de viviendas, el valor de r al cuadrado es 0,70 o 70 %.
Diferencias entre una regresiĆ³n lineal y una correlaciĆ³n
Es posible que ahora se pregunte cĆ³mo distinguir entre una regresiĆ³n lineal y una correlaciĆ³n. Consulte la siguiente tabla para ver un resumen de cada concepto.
RegresiĆ³n lineal | CorrelaciĆ³n |
---|---|
Muestra un modelo lineal y una predicciĆ³n de Y a partir de X. |
Muestra una relaciĆ³n lineal entre dos valores. |
Usa r al cuadrado para medir el porcentaje de variaciĆ³n que explica el modelo. |
Usa el valor de r para medir la fuerza y la direcciĆ³n de la correlaciĆ³n. |
No usa X e Y como valores intercambiables (porque Y se predice a partir de X). |
Usa X e Y como valores intercambiables. |
Familiarizarse con los conceptos estadĆsticos de correlaciĆ³n y regresiĆ³n le permite explorar y comprender los datos con los que trabaja al examinar las relaciones entre ellos.