Ermitteln von Beziehungen mithilfe linearer Regression
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Definieren linearer Regression
- Unterscheiden der Merkmale von Korrelation und linearer Regression
Was ist lineare Regression?
In der vorherigen Lektion haben Sie gelernt, dass sich Korrelation auf die Richtung (positiv oder negativ) und die Stärke (sehr stark bis sehr schwach) der Beziehung zwischen zwei quantitativen Variablen bezieht.
Wie Korrelation zeigt auch lineare Regression die Richtung und Stärke der Beziehung zwischen zwei numerischen Variablen. Doch im Gegensatz zur Korrelation wird bei der Regression die am besten passende Gerade durch die Punkte eines Streudiagramms verwendet, um Y-Werte anhand von X-Werten vorherzusagen. Bei Korrelation sind die Werte von X und Y austauschbar. Bei Regression ändern sich die Ergebnisse der Analyse, wenn X und Y getauscht werden.
Die lineare Regressionsgerade
Damit Regressionen genauso aussagekräftig wie Korrelationen sind, müssen Sie:
- Quantitative Variablen verwenden
- Auf lineare Beziehung prüfen
- Nach Ausreißern suchen
Wie Korrelation wird auch lineare Regression in einem Streudiagramm visualisiert.
Die Regressionsgerade im Streudiagramm ist die am besten passende Gerade durch die Punkte des Streudiagramms. Mit anderen Worten, es handelt sich um eine Gerade, die durch die Punkte mit dem geringsten Abstand von jedem Punkt zur Gerade verläuft.
Warum ist diese Gerade hilfreich und nützlich? Wir können mithilfe der Berechnung linearer Regression unseren Y-Wert berechnen bzw. vorhersagen, wenn wir einen bekannten X-Wert haben.
Um dies zu verdeutlichen, lassen Sie uns ein Beispiel betrachten.
Beispiel für Regression
Angenommen, Sie möchten vorhersagen, wie viel Sie ausgeben müssen, um ein Haus mit einer Wohnfläche von 140 m2 zu kaufen. Lassen Sie uns zur Prognose lineare Regression verwenden.
- Platzieren Sie die Variable, die Sie vorhersagen möchten, also Immobilienpreise, auf der y-Achse (wird auch als abhängige Variable bezeichnet).
- Platzieren Sie die Variable, auf die Sie Ihre Prognosen stützen, nämlich die Quadratmeterzahl, auf der x-Achse (wird auch als unabhängige Variable bezeichnet).
Hier sehen Sie ein Streudiagramm mit den Immobilienpreisen (y-Achse) und der Quadratmeterzahl (x-Achse).
Das Streudiagramm zeigt, dass Immobilien mit mehr Quadratmetern tendenziell höhere Preise haben, aber wie viel müssen Sie für ein Haus mit einer Wohnfläche von 140 m2 ausgeben?
Um diese Frage zu beantworten, zeichnen Sie eine Gerade durch die Punkte. Dies ist lineare Regression. Mithilfe der Regressionsgeraden können Sie vorhersagen, was ein typisches Haus mit einer bestimmten Quadratmeterzahl kosten wird. In diesem Beispiel können Sie die Gleichung für die Regressionsgerade sehen.
Die Gleichung der Geraden lautet Y = (113 x X) + 98,653 (mit Rundung).
Was bedeutet diese Gleichung? Wenn Sie ein Haus ohne Quadratmeterzahl kaufen würden (z. B. ein leeres Grundstück), würde der Preis 98.653 USD betragen. Es folgen die Schritte zur Lösung der Gleichung.
Um Y zu ermitteln, multiplizieren Sie den Wert von X mit 113 und addieren dann 98.653. In diesem Fall handelt es sich um keine Quadratmeterzahl, also ist der Wert von X gleich 0.
- Y = (113 x 0) + 98.653
- Y = 0 + 98.653
- Y = 98.653
Der Wert 98.653 wird als y-Achsenabschnitt bezeichnet, weil die Gerade hier die y-Achse kreuzt bzw. schneidet. Dies ist der Wert von Y, wenn X gleich 0 ist.
Die Zahl 113 ist die Steigung der Geraden. Die Steigung ist eine Zahl, die sowohl die Richtung als auch die Steilheit der Geraden beschreibt. In diesem Fall prognostiziert die Steigung, dass der Immobilienpreis für jede zusätzlichen Quadratfuß (0,09 m2) um 113 USD steigt.
Hier sehen Sie nun, was Sie für ein Haus mit einer Wohnfläche von 140 m2 ausgeben müssen:
Y = (113 x 1500) + 98.653 = 268.153 USD
Werfen Sie noch einmal einen Blick auf dieses Streudiagramm. Die blauen Markierungen sind die tatsächlichen Daten. Sie können sehen, dass Sie Daten für Häuser mit einer Wohnfläche von 102 bis 228 m2 haben.
Beachten Sie, dass diese Gleichung nicht zur Prognose des Preises sämtlicher Häuser herangezogen werden kann. Da ein Haus mit einer Fläche von 46 m2 und ein Haus mit einer Fläche von 929 m2 beide außerhalb des Bereichs der tatsächlichen Daten liegen, müssen Sie bei Prognosen mit diesen Werten unter Verwendung dieser Gleichung vorsichtig sein.
Das Bestimmtheitsmaß (R2)
Zusätzlich zur Gleichung in diesem Beispiel sehen wir auch das Bestimmtheitsmaß (auch R2-Wert genannt).
Dieser Wert ist ein statistisches Maß dafür, wie nahe die Daten an der Regressionsgeraden liegen bzw. wie gut das Modell mit Ihren Beobachtungen übereinstimmt. Wenn die Daten exakt auf der Geraden liegen, wäre das Bestimmtheitsmaß 1 bzw. 100 %, was bedeutet, dass Ihr Modell optimal angepasst ist (alle beobachteten Datenpunkte liegen auf der Geraden).
Bei unseren Immobilienpreisdaten ist das Bestimmtheitsmaß 0,70, also 70 %.
Vergleich von linearer Regression und Korrelation
Sie fragen sich jetzt vielleicht, wie Sie zwischen linearer Regression und Korrelation unterscheiden können. In der folgenden Tabelle finden Sie eine Zusammenfassung der beiden Konzepte.
Lineare Regression | Korrelation |
---|---|
Zeigt ein lineares Modell und eine Prognose, die Y anhand von X vorhersagt. |
Zeigt eine lineare Beziehung zwischen zwei Werten. |
Verwendet das Bestimmtheitsmaß (R2), um den Prozentsatz der durch das Modell erklärten Abweichung zu messen. |
Verwendet r, um die Stärke und Richtung der Korrelation zu messen. |
Verwendet X und Y nicht als austauschbare Werte (da Y anhand von X vorhergesagt wird). |
Verwendet X und Y als austauschbare Werte. |
Wenn Sie mit den statistischen Konzepten von Korrelation und Regression vertraut sind, können Sie die Daten, mit denen Sie arbeiten, durch die Untersuchung von Beziehungen erkunden und besser verstehen.