Ermitteln von Beziehungen mithilfe linearer Regression

Lernziele

Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:

Definieren linearer Regression
Unterscheiden der Merkmale von Korrelation und linearer Regression

Was ist lineare Regression?

In der vorherigen Lektion haben Sie gelernt, dass sich Korrelation auf die Richtung (positiv oder negativ) und die Stärke (sehr stark bis sehr schwach) der Beziehung zwischen zwei quantitativen Variablen bezieht.

Wie Korrelation zeigt auch lineare Regression die Richtung und Stärke der Beziehung zwischen zwei numerischen Variablen. Doch im Gegensatz zur Korrelation wird bei der Regression die am besten passende Gerade durch die Punkte eines Streudiagramms verwendet, um Y-Werte anhand von X-Werten vorherzusagen. Bei Korrelation sind die Werte von X und Y austauschbar. Bei Regression ändern sich die Ergebnisse der Analyse, wenn X und Y getauscht werden.

Die Konzepte in dieser Lektion wurden aus Introduction to Statistics übernommen.

Die lineare Regressionsgerade

Damit Regressionen genauso aussagekräftig wie Korrelationen sind, müssen Sie:

Quantitative Variablen verwenden
Auf lineare Beziehung prüfen
Nach Ausreißern suchen

Wie Korrelation wird auch lineare Regression in einem Streudiagramm visualisiert.

Die Regressionsgerade im Streudiagramm ist die am besten passende Gerade durch die Punkte des Streudiagramms. Mit anderen Worten, es handelt sich um eine Gerade, die durch die Punkte mit dem geringsten Abstand von jedem Punkt zur Gerade verläuft.

Warum ist diese Gerade hilfreich und nützlich? Wir können mithilfe der Berechnung linearer Regression unseren Y-Wert berechnen bzw. vorhersagen, wenn wir einen bekannten X-Wert haben.

Um dies zu verdeutlichen, lassen Sie uns ein Beispiel betrachten.

Beispiel für Regression

Angenommen, Sie möchten vorhersagen, wie viel Sie ausgeben müssen, um ein Haus mit einer Wohnfläche von 140 m2 zu kaufen. Lassen Sie uns zur Prognose lineare Regression verwenden.

Platzieren Sie die Variable, die Sie vorhersagen möchten, also Immobilienpreise, auf der y-Achse (wird auch als abhängige Variable bezeichnet).
Platzieren Sie die Variable, auf die Sie Ihre Prognosen stützen, nämlich die Quadratmeterzahl, auf der x-Achse (wird auch als unabhängige Variable bezeichnet).

Hier sehen Sie ein Streudiagramm mit den Immobilienpreisen (y-Achse) und der Quadratmeterzahl (x-Achse).

Ein Streudiagramm mit blauen Markierungen für Immobilienpreise (y-Achse) und Quadratmeterzahl (x-Achse)

Das Streudiagramm zeigt, dass Immobilien mit mehr Quadratmetern tendenziell höhere Preise haben, aber wie viel müssen Sie für ein Haus mit einer Wohnfläche von 140 m2 ausgeben?

Um diese Frage zu beantworten, zeichnen Sie eine Gerade durch die Punkte. Dies ist lineare Regression. Mithilfe der Regressionsgeraden können Sie vorhersagen, was ein typisches Haus mit einer bestimmten Quadratmeterzahl kosten wird. In diesem Beispiel können Sie die Gleichung für die Regressionsgerade sehen.

Die Gleichung für die Regressionsgerade ist hervorgehoben.

Die Gleichung der Geraden lautet Y = (113 x X) + 98,653 (mit Rundung).

Vielleicht fragen Sie sich, wie wir zu den spezifischen Zahlen für die Geradengleichung gekommen sind. Sie können die Steigung und den Achsenabschnitt zwar von Hand berechnen, aber moderne Tools wie Tableau übernehmen diese Arbeit für Sie. Mithilfe der sogenannten "Methode der kleinsten Quadrate" analysiert Tableau Ihre Datenpunkte und ermittelt sofort die "beste Passgerade". Sie ziehen einfach eine Trendlinie auf Ihr Diagramm, und die Software übernimmt die komplexen Berechnungen, um Ihnen innerhalb von Sekunden eine genaue Gleichung zu liefern.

Was bedeutet diese Gleichung? Wenn Sie ein Haus ohne Quadratmeterzahl kaufen würden (z. B. ein leeres Grundstück), würde der Preis 98.653 USD betragen. Es folgen die Schritte zur Lösung der Gleichung.

Um Y zu ermitteln, multiplizieren Sie den Wert von X mit 113 und addieren dann 98.653. In diesem Fall handelt es sich um keine Quadratmeterzahl, also ist der Wert von X gleich 0.

Y = (113 x 0) + 98.653
Y = 0 + 98.653
Y = 98.653

Der Wert 98.653 wird als y-Achsenabschnitt bezeichnet, weil die Gerade hier die y-Achse kreuzt bzw. schneidet. Dies ist der Wert von Y, wenn X gleich 0 ist.

Die Zahl 113 ist die Steigung der Geraden. Die Steigung ist eine Zahl, die sowohl die Richtung als auch die Steilheit der Geraden beschreibt. In diesem Fall prognostiziert die Steigung, dass der Immobilienpreis für jede zusätzlichen Quadratfuß (0,09 m2) um 113 USD steigt.

Hier sehen Sie nun, was Sie für ein Haus mit einer Wohnfläche von 140 m2 ausgeben müssen:

Y = (113 x 1500) + 98.653 = 268.153 USD

Werfen Sie noch einmal einen Blick auf dieses Streudiagramm. Die blauen Markierungen sind die tatsächlichen Daten. Sie können sehen, dass Sie Daten für Häuser mit einer Wohnfläche von 102 bis 228 m2 haben.

Ein Streudiagramm mit blauen Markierungen, einer grauen Regressionsgeraden und orangefarbenen Geraden, die zeigen, wo sich X und Y auf der Regressionsgeraden treffen

Beachten Sie, dass diese Gleichung nicht zur Prognose des Preises sämtlicher Häuser herangezogen werden kann. Da ein Haus mit einer Fläche von 460 m2 und ein Haus mit einer Fläche von 920 m2 beide außerhalb des Bereichs der tatsächlichen Daten liegen, müssen Sie bei Prognosen mit diesen Werten unter Verwendung dieser Gleichung vorsichtig sein.

Das Bestimmtheitsmaß (R2)

Zusätzlich zur Gleichung in diesem Beispiel sehen wir auch das Bestimmtheitsmaß (auch R2-Wert genannt).

Das Bestimmtheitsmaß für die Regressionsgerade ist hervorgehoben.

Dieser Wert ist ein statistisches Maß dafür, wie nahe die Daten an der Regressionsgeraden liegen bzw. wie gut das Modell mit Ihren Beobachtungen übereinstimmt. Wenn die Daten exakt auf der Geraden liegen, wäre das Bestimmtheitsmaß 1 bzw. 100 %, was bedeutet, dass Ihr Modell optimal angepasst ist (alle beobachteten Datenpunkte liegen auf der Geraden).

Bei unseren Immobilienpreisdaten ist das Bestimmtheitsmaß 0,70, also 70 %.

Vergleich von linearer Regression und Korrelation

Sie fragen sich jetzt vielleicht, wie Sie zwischen linearer Regression und Korrelation unterscheiden können. In der folgenden Tabelle finden Sie eine Zusammenfassung der beiden Konzepte.

Lineare Regression	Korrelation
Zeigt ein lineares Modell und eine Prognose, die Y anhand von X vorhersagt.	Zeigt eine lineare Beziehung zwischen zwei Werten.
Verwendet das Bestimmtheitsmaß (R2), um den Prozentsatz der durch das Modell erklärten Abweichung zu messen.	Verwendet r, um die Stärke und Richtung der Korrelation zu messen.
Verwendet X und Y nicht als austauschbare Werte (da Y anhand von X vorhergesagt wird).	Verwendet X und Y als austauschbare Werte.

Wenn Sie mit den statistischen Konzepten von Korrelation und Regression vertraut sind, können Sie die Daten, mit denen Sie arbeiten, durch die Untersuchung von Beziehungen erkunden und besser verstehen.

Ressourcen

Buch: Online Statistics Education: An Interactive Multimedia Course of Study, 2020

Geschätzte Zeit

Themen

Benötigen Sie Hilfe?

Tableau – Ressourcen