Messen von Varianz
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Definieren von Varianz und Standardabweichung
- Berechnen von Mittelwert, Varianz und Standardabweichung
Wenn Sie sich die Verteilung Ihrer Daten ansehen, erkennen Sie Daten, die gestreut sind? Was sagt die Streuung über die Daten aus und welche Schlussfolgerungen können Sie ziehen? In diesem Modul machen Sie sich mit den Konzepten von Varianz sowie sachkundigen bzw. klugen Vergleichen vertraut, die Ihnen helfen können, Daten zu erkunden, zu verstehen und mit ihnen zu kommunizieren.
Varianz und Standardabweichung
Im Modul Datenverteilungen werden die Form (symmetrisch oder schief) und der Mittelpunkt (Mittelwert oder Median) der Daten vorgestellt.
Nun sehen wir uns die Varianz bzw. Streuung der Daten an. Varianz misst, wie Datenpunkte vom Mittelwert abweichen, während die Standardabweichung das Maß für die Verteilung statistischer Daten ist. Sehen wir uns ein Beispiel an:
Zwei Gruppen von Lernenden haben an einem Quiz mit jeweils 10 erreichbaren Punkten teilgenommen. Beide Gruppen schnitten im Quiz durchschnittlich mit 7 Punkten bzw. 70 % ab. Die Quizergebnisse von Gruppe A liegen jedoch im Bereich von 5 bis 9 (50 % bis 90 %), während die Quizergebnisse von Gruppe B im Bereich von 4 bis 10 (40 % bis 100 %) liegen. Die Ergebnisse von Gruppe B sind breiter gestreut als die von Gruppe A.
Wir möchten die Streuung der Daten besser verstehen. Zu diesem Zweck messen wir Varianz und Standardabweichung mithilfe der folgenden Schritte.
- Prüfen Sie den Mittelwert. Wenn wir die Daten betrachten, sehen wir, dass jede Gruppe 20 Quizteilnehmer hat. Wenn wir die Summe aller Ergebnisse für jede Gruppe berechnen, erhalten wir sowohl für Gruppe A als auch für Gruppe B den Gesamtwert 140.
Quizergebnisse für Gruppe A | Quizergebnisse für Gruppe B |
---|---|
9 |
10 |
9 |
10 |
9 |
10 |
8 |
9 |
8 |
9 |
8 |
9 |
8 |
8 |
7 |
8 |
7 |
7 |
7 |
7 |
7 |
7 |
7 | 6 |
6 |
6 |
6 |
6 |
6 |
5 |
6 |
5 |
6 |
5 |
6 |
5 |
5 |
4 |
5 |
4 |
Zum Berechnen des Mittelwerts dividieren wir das Gesamtergebnis jeder Gruppe durch die Anzahl der Quizteilnehmer in der Gruppe. Für jede Gruppe ist die Gleichung 140:20. Der Mittelwert für jede Gruppe ist 7 (oder 70 %).
Gruppe A:
9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140
140:20 = 7
Gruppe B:
10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140
140:20 = 7
- Beginnen Sie die Berechnung der Varianz, indem Sie die Abweichungen ermitteln.
Nachdem wir den Mittelwert berechnet haben, können wir nun damit beginnen, die Varianz zu berechnen. Die Varianz misst, wie breit die Daten gestreut sind. Die Varianz 0 bedeutet, dass alle Datenwerte identisch sind. Eine hohe Varianz bedeutet, dass die Datenpunkte sehr weit sowohl vom Mittelwert und als auch voneinander entfernt sind.
Quizergebnisse für Gruppe A | Abweichung vom Mittelwert (7 oder 70 %) | Quizergebnisse für Gruppe B | Abweichung vom Mittelwert (7 oder 70 %) |
---|---|---|---|
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
9 |
2 |
10 |
3 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
9 |
2 |
8 |
1 |
8 |
1 |
7 |
0 |
8 |
1 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
7 |
0 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
6 |
-1 |
5 |
-2 |
5 |
-2 |
4 |
-3 |
5 |
-2 |
4 |
-3 |
Um die Varianz zu berechnen, addieren Sie die quadrierten Abstände der einzelnen Datenpunkte vom Mittelwert und dividieren sie dann durch die Anzahl der Datenpunkte.
Lassen Sie uns zunächst die Abweichung vom mittleren Ergebnis 7 für jeden Quizteilnehmer berechnen. Beispielsweise ist die Abweichung zwischen 9 und 7 gleich 2 (da 9 - 7 = 2) und die Abweichung zwischen 6 und 7 ist -1 (da 6 - 7 = -1).
- Setzen Sie die Berechnung der Varianz fort, indem Sie die Abweichungen quadrieren.
Wir haben die Abweichung vom Mittelwert für jeden Quizteilnehmer berechnet. Lassen Sie uns nun jede einzelne Abweichung quadrieren. Beispielsweise ist die Abweichung zwischen 9 und 7 gleich 2 (9 - 7 = 2) und das Quadrat von 2 ist gleich 4 (da 2 x 2 = 4). Die Abweichung zwischen 6 und 7 ist gleich -1 (da 6 - 7 = -1), und das Quadrat von -1 ist gleich 1 (da -1 x -1 = 1).
Quizergebnisse für Gruppe A | Abweichung vom Mittelwert (7 oder 70 %) | Quadrierter Wert der Abweichung vom Mittelwert | Quizergebnisse für Gruppe B | Abweichung vom Mittelwert (7 oder 70 %) | Quadrierter Wert der Abweichung vom Mittelwert |
---|---|---|---|---|---|
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
9 |
2 |
4 |
10 |
3 |
9 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
9 |
2 |
4 |
8 |
1 |
1 |
8 |
1 |
1 |
7 |
0 |
0 |
8 |
1 |
1 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
7 |
0 |
0 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
6 |
-1 |
1 |
5 |
-2 |
4 |
5 |
-2 |
4 |
4 |
-3 |
9 |
5 |
-2 |
4 |
4 |
-3 |
9 |
- Setzen Sie die Berechnung der Varianz fort, indem Sie die Abweichungen addieren.
Wir haben die Abweichung vom Mittelwert für jeden Quizteilnehmer berechnet und jede Abweichung quadriert. Jetzt addieren wir die quadrierten Abweichungen für jede Gruppe:
Gruppe A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
Gruppe B:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
- Beenden Sie die Berechnung der Varianz, indem Sie den Mittelwert der addierten Abweichungen bilden.
Um die Varianz zu ermitteln, dividieren wir nun die addierten Quadrate für jede Gruppe durch die Gesamtanzahl der Datenpunkte (Quizteilnehmer) in der Gruppe, also 20.
Die Varianz für Gruppe A beträgt 1,5, die Varianz für Gruppe B 3,9.
Gruppe A:
4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30
30 : 20 1,5
Gruppe B:
9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78
78 : 20 3,9
- Berechnen Sie die Standardabweichung
Die Standardabweichung misst die Streuung eines Datensets im Verhältnis zu seinem Mittelwert und wird als Quadratwurzel der Varianz berechnet. Wenn die Datenpunkte weiter vom Mittelwert entfernt sind, liegt eine größere Abweichung innerhalb des Datensets vor. Mit anderen Worten: Je breiter die Daten gestreut sind, desto höher ist die Standardabweichung.
Wir haben die Varianz für jede Gruppe berechnet. Um die Standardabweichung für jede Gruppe zu ermitteln, berechnen wir die Quadratwurzel der Varianz.
Die Standardabweichung für Gruppe A beträgt 1,22 und für Gruppe B 1,97.
Gruppe A:
Varianz = 1,5
Quadratwurzel von 1,5 = 1,22
Gruppe B:
Varianz = 3,9
Quadratwurzel von 3,9 = 1,97
- Überprüfen Sie die Daten.
Wir können nun zeigen, welche Ergebnisse der Quizteilnehmer innerhalb einer Standardabweichung vom Mittelwert für jede Gruppe liegen. (Die Abweichung vom Mittelwert kann positiv oder negativ sein.)
Quizergebnisse für Gruppe A | Abweichung vom Mittelwert (7 oder 70 %) | Quadrierter Wert der Abweichung vom Mittelwert | Innerhalb 1 Standardabweichung vom Mittelwert (1,22)? | Quizergebnisse für Gruppe B | Abweichung vom Mittelwert (7 oder 70 %) | Quadrierter Wert der Abweichung vom Mittelwert | Innerhalb 1 Standardabweichung vom Mittelwert (1,97)? |
---|---|---|---|---|---|---|---|
9 |
2 |
4 |
Nein |
10 |
3 |
9 |
Nein |
9 |
2 |
4 |
Nein |
10 |
3 |
9 |
Nein |
9 |
2 |
4 |
Nein |
10 |
3 |
9 |
Nein |
8 |
1 |
1 |
Ja |
9 |
2 |
4 |
Nein |
8 |
1 |
1 |
Ja |
9 |
2 |
4 |
Nein |
8 |
1 |
1 |
Ja |
9 |
2 |
4 |
Nein |
8 |
1 |
1 |
Ja |
8 |
1 |
1 |
Ja |
7 |
0 |
0 |
Ja |
8 |
1 |
1 |
Ja |
7 |
0 |
0 |
Ja |
7 |
0 |
0 |
Ja |
7 |
0 |
0 |
Ja |
7 |
0 |
0 |
Ja |
7 |
0 |
0 |
Ja |
7 |
0 |
0 |
Ja |
7 |
0 |
0 |
Ja |
6 |
-1 |
1 |
Ja |
6 |
-1 |
1 |
Ja |
6 |
-1 |
1 |
Ja |
6 |
-1 |
1 |
Ja |
6 |
-1 |
1 |
Ja |
6 |
-1 |
1 |
Ja |
5 |
-2 |
4 |
Nein |
6 |
-1 |
1 |
Ja |
5 |
-2 |
4 |
Nein |
6 |
-1 |
1 |
Ja |
5 |
-2 |
4 |
Nein |
6 |
-1 |
1 |
Ja |
5 |
-2 |
4 |
Nein |
5 |
-2 |
4 |
Nein |
4 |
-3 |
9 |
Nein |
5 |
-2 |
4 |
Nein |
4 |
-3 |
9 |
Nein |
Sie haben nun erfahren, wie Sie Varianz und Standardabweichung berechnen können. Später in dieser Lektion werden Sie die Gelegenheit haben, diese Berechnungen in einem einfachen Szenario durchzuführen.
Stichprobenvarianz
Was sollten Sie tun, wenn Sie keine Daten für die gesamte Grundgesamtheit haben?
Es gibt einen Unterschied zwischen der Berechnung der Varianz für eine Grundgesamtheit und für eine Stichprobe bzw. Teilmenge einer Grundgesamtheit. Für beide berechnen Sie den Mittelwert, dann die Abweichungen vom Mittelwert, quadrieren alle Abweichungen und addieren dann die quadrierten Abweichungen.
Wie im vorherigen Beispiel dividieren Sie bei Berechnung der Varianz der Grundgesamtheit die Summe der quadrierten Abweichungen vom Mittelwert durch die Anzahl der Elemente in der Grundgesamtheit. Bei einer vollzähligen Grundgesamtheit von 20 dividieren wir z. B. durch 20.
Hier nun der Unterschied. Bei Berechnung der Stichprobenvarianz dividieren Sie die Summe der quadrierten Abweichungen vom Mittelwert durch die Anzahl der Elemente in der Stichprobe minus eins. In diesem Fall, wenn in einer Stichprobe (oder Teilmenge) der Grundgesamtheit 20 Elemente enthalten sind, dividieren Sie also durch 19. Der Zweck dieses Unterschieds besteht darin, eine weniger verzerrte Schätzung der Varianz der Grundgesamtheit zu erhalten. Mit anderen Worten: Die Division durch den Stichprobenumfang minus eins (n-1) gleicht aus, dass Sie mit einer Stichprobe und nicht mit der gesamten Grundgesamtheit arbeiten. Das kleine n steht für die Anzahl der Beobachtungen in einer Stichprobe.
Beispiel: Berechnen von Varianz und Standardabweichung
Bestimmen Sie nun Varianz und Standardabweichung anhand eines Beispiels mit weniger Werten.
Stellen Sie sich vor, in Ihrem Haushalt leben fünf Katzen: Cindy, Fritzi, Lili, Dani und Mikesch.
Der Einfachheit halber betrachten wir die Katzen in Ihrem Haushalt als eine vollständige Grundgesamtheit und nicht als eine Stichprobe. Sie wiegen jede Katze und halten die Ergebnisse in der folgenden Tabelle fest.
Name der Katze | Gewicht in Pfund |
---|---|
Cindy |
7 |
Dani |
8 |
Lili |
9 |
Fritzi |
12 |
Mikesch |
14 |
Berechnen Sie zunächst das mittlere (bzw. durchschnittliche) Gewicht der fünf Katzen.
- Addieren Sie alle Gewichte:
7 + 8 + 9 + 12 + 14 = 50
- Dann teilen Sie diese Summe durch die Anzahl der Katzen in den Daten:
50 : 5 = 10
10 Pfund ist das mittlere (oder durchschnittliche) Gewicht dieser Katzengruppe.
Beginnen Sie nun mit der Berechnung der Varianz. - Berechnen Sie zunächst für jede Katze die Abweichung vom Durchschnittsgewicht:
Name der Katze Gewicht (in Pfund) Abweichung vom Mittelwert
(10 Pfund)
Cindy
7
7 - 10 = (-3)
Dani
8
8 - 10 = (-2)
Lili
9
9 - 10 = (-1)
Fritzi
12
12 - 10 = 2
Mikesch
14
14 - 10 = 4
- Quadrieren Sie nun jede Abweichung vom Mittelwert.
Name der Katze Gewicht (in Pfund) Abweichung vom Mittelwert
(10 Pfund)
Quadrierter Wert der Abweichung vom Mittelwert Cindy
7
(-3)
(-3) x (-3) = 9
Dani
8
(-2)
(-2) x (-2) = 4
Lili
9
(-1)
(-1) x (-1) = 1
Fritzi
12
2
2 x 2 = 4
Mikesch
14
4
4 x 4 = 16
- Als Nächstes addieren Sie alle quadrierten Werte der Abweichungen vom Mittelwert:
9 + 4 + 1 + 4 + 16 = 34
- Teilen Sie dann das Ergebnis durch die Anzahl der Datenpunkte (bzw. Katzen):
34 : 5 = 6,8. 6,8 ist also die Varianz bei den Katzen.
- Berechnen Sie nach Berechnung der Varianz nun die Standardabweichung, indem Sie die Quadratwurzel aus der Varianz ziehen. (Sie können dazu einen Taschenrechner verwenden.)
Die Quadratwurzel aus 6,8 ist 2,6. 2,6 ist also die Standardabweichung.
Sie können nun sehen, welche Katzengewichte innerhalb einer Standardabweichung (2,6 Pfund) vom Mittelwert (10 Pfund) liegen:
Name der Katze | Gewicht (in Pfund) |
Abweichung vom Mittelwert (10 Pfund) |
Innerhalb einer Standardabweichung (2,6 Pfund)? |
---|---|---|---|
Cindy |
7 |
(-3) |
Nein |
Dani |
8 |
(-2) |
Ja |
Lili |
9 |
(-1) |
Ja |
Fritzi |
12 |
2 |
Ja |
Mikesch |
14 |
4 |
Nein |