Anzeigen von Verteilungen fortlaufender Variablen mithilfe von Boxplots
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Beschreiben, wie die Verteilung von Daten mithilfe von Boxplots dargestellt wird
- Erstellen eines Boxplots
Bisher haben Sie eine Reihe von Möglichkeiten zur Darstellung von Verteilungen von Variablen kennengelernt. In dieser Lektion lernen Sie ein weiteres wichtiges Diagramm kennen, das sog. Boxplot (Kastengrafik). Boxplots wurden in den 1970er Jahren vom US-amerikanischen Mathematiker John Tukey vorgestellt und bieten eine visuell kompakte Möglichkeit, Datenverteilungen darzustellen und zu vergleichen.
Die Boxes in einem Boxplot zeigen die mittleren 50 % der Daten an. Diese Daten reichen vom 25. Perzentil bis zum 75. Perzentil, wobei der Median beim 50. Perzentil liegt.
Ein Perzentil gibt an, wie ein Ergebnis im Vergleich zu anderen Ergebnissen innerhalb desselben Datensets abschneidet. Angenommen, Sie nehmen an einem Quiz teil, um Ihren Grad der Introvertiertheit zu messen. Ihr Punktwert für Introvertiertheit ist für sich genommen schwer zu interpretieren. Sie möchten wissen, wie Ihr Punktwert im Vergleich zu anderen ist und wie viel Prozent der Menschen einen niedrigeren Punktwert für Schüchternheit haben als Sie. Dieser Prozentsatz ist ein Perzentil. Wenn 65 % der anderen Testteilnehmer weniger schüchtern sind als Sie, liegt Ihr Ergebnis im 65. Perzentil.
Zur Wiederholung: Die Box in einem Boxplot zeigt die mittleren 50 % bzw. das 25. bis 75. Perzentil der Daten. Aber was ist mit den Daten, die nicht in diese Kategorie fallen? Hier kommen die sog. Whiskers ins Spiel. Außerhalb der Box gezeichnet, sind Whiskers vertikale Linien, die in einem horizontalen Strich enden. Sie geben Aufschluss über Werte, die nicht in den mittleren 50 % der Daten (der Box) liegen, einschließlich Ausreißern. Ausreißer können als atypische und seltene Beobachtungen oder Werte verstanden werden, die eine extreme Abweichung vom Zentrum einer Verteilung aufweisen.
Auf all diese Konzepte gehen wir später in dieser Lektion näher ein.
Erstellen eines Boxplots
Das folgende Beispiel eines Boxplots stammt aus dem Kapitel über Boxplots von David M. Lane in dem gemeinfreien Online-Werk Online Statistics Education: A Multimedia Course of Study. Projektleitung: David M. Lane, Rice University, Houston, Texas, USA.
Der Autor verwendete ein auf eine Klasse begrenztes Experiment mit 31 Schülern. Die Schüler bekamen jeweils eine Seite mit 30 farbigen Rechtecken und sollten die Farben so schnell wie möglich benennen.
Ihre Zeiten in Sekunden wurden wie in der folgenden Tabelle dargestellt aufgezeichnet:
14 |
17 |
18 |
19 |
20 |
21 |
15 |
17 |
18 |
19 |
20 |
22 |
16 |
17 |
18 |
19 |
20 |
23 |
16 |
17 |
18 |
20 |
20 |
24 |
17 |
18 |
18 |
20 |
21 |
24 |
29 |
Lassen Sie uns anhand dieses Datensets ein Boxplot erstellen. Es folgt ein Überblick über die notwendigen Schritte zu dessen Erstellung.
- Berechnen Sie die Perzentile.
- Zeichnen Sie die Box entsprechend den Perzentilen.
- Bestimmen Sie die Schrittweite.
- Fügen Sie die Whisker hinzu.
- Fügen Sie den äußeren Wert hinzu.
Berechnen von Perzentilen
Denken Sie daran, dass sich die Boxes in Boxplots vom 25. Perzentil bis zum 75. Perzentil der Daten erstrecken. Das 50. Perzentil wird innerhalb der Box gezeichnet. Der untere Rand der Box (das untere Scharnier) ist das 25. Perzentil, der obere Rand der Box (das obere Scharnier) das 75. Perzentil.
In den folgenden Schritten werden wir eine Zahlengerade verwenden, um die Perzentile darzustellen.
- Listen Sie die Punktwerte vom kleinsten bis zum größten auf.
- Bestimmen Sie den Median, also den zentralen Wert. Der Medianwert liegt in der Mitte zwischen dem Anfang und dem Ende der Zahlengeraden. Bei einer Reihe von 31 Werten bedeute Mitte, dass 15 Werte vor und 15 Werte hinter dem Medianwert liegen. Der Medianwert ist also 19.
- Bestimmen Sie das 25. Perzentil. Der Wert des 25. Perzentils liegt in der Mitte zwischen dem Anfang der Reihe und dem Medianwert. In unserem Beispiel mit 31 Werten liegen 7 Werte vor und 7 Werte zwischen ihm und dem Median. Der Wert des 25. Perzentils ist also 17.
- Bestimmen Sie das 75. Perzentil. Der Wert des 75. Perzentils liegt in der Mitte zwischen dem Median und dem Ende der Reihe. Bei unserer Liste mit 31 Werten liegen 7 Werte zwischen ihm und dem Median und 7 Werte zwischen ihm und dem Ende der Reihe. Der Wert des 75. Perzentils ist also 20.
Zeichnen der Box gemäß den Perzentilen
Geben Sie diese Werte ein und zeichnen Sie die Box.
Für unsere Menge von 31 Punktwerten haben wir Folgendes festgestellt:
- Das 25. Perzentil ist 17.
- Das 50. Perzentil (bzw. der Median) ist 19.
- Das 75. Perzentil ist 20.
Sie zeichnen daher die Box wie folgt.
- Das 25. Perzentil (unteres Scharnier) befindet sich bei 17 auf der y-Achse.
- Das 50. Perzentil (Median) befindet sich bei 19 auf der y-Achse.
- Das 75. Perzentil (oberes Scharnier) befindet sich bei 20 auf der y-Achse.
Die mittleren 50 % der Datenwerte werden in der Box gezeigt.
Bestimmen der Schrittweite
Sie bereiten sind nun darauf vor, Whiskers oberhalb und unterhalb der Box zu zeichnen, um zusätzliche Informationen über die Streuung der Daten zu erhalten. Die Platzierung der Whiskers wird durch Schritte bestimmt, wobei ein Schritt als 1,5 x IQA definiert ist. IQA ist der Interquartilsabstand.
Das klingt zwar kompliziert, aber der IQA bezieht sich einfach auf die Differenz zwischen dem Wert des oberen Scharniers (75. Perzentil) und dem Wert des unteren Scharniers (25. Perzentil). Denken Sie daran, dass die mittleren 50 % der Datenwerte in der durch diese Werte begrenzten Box liegen.
In unserer Menge von Punktwerten ist der Wert des oberen Scharniers 20 und der des unteren Scharniers 17. Der IQA ist also 20 minus 17 bzw. 3.
Um unsere Schrittgröße zu bestimmen, multiplizieren wir 3 (den IQA) mit 1,5 und erhalten 4,5 als Schrittweite.
Hinzufügen der Whiskers
Um zu verstehen, wie die Whiskers gezeichnet werden, müssen wir uns zunächst einige Begriffe ansehen und wie sie auf die Werte in unserem Beispiel zutreffen.
Wo gehören die Whiskers hin?
Sie können Whiskers vom oberen Scharnier zum oberen Nachbarwert und vom unteren Scharnier zum unteren Nachbarwert zeichnen.
Die Whiskers reichen nicht ganz bis zu den äußeren Werten. Stattdessen stellen Sie einen äußeren Wert mit einem kleinen o und einen äußeren Wert mit einem Sternchen (*) dar.
Bei unseren Punktwertdaten reichen die Whiskers vom Wert des oberen Scharniers zum oberen Nachbarwert (24) und vom Wert des unteren Scharniers zum unteren Nachbarwert (14).
Hinzufügen des äußeren Werts
Ein Wert, der über einen inneren Zaun, aber nicht über einen äußeren Zaun hinausgeht, ist ein äußerer Wert. Wir haben in unserer Menge von Punktwerten einen dieser Werte, nämlich 29, der mit dem Wert des äußeren Zauns übereinstimmt, aber nicht darüber hinausgeht. Sie verwenden ein kleines o, um diesen Wert darzustellen.
Damit ist unser Boxplot nun vollständig!
Boxplots im Vergleich zu Histogrammen
Sie fragen sich möglicherweise, wie sich Boxplots bei der Darstellung von Verteilungen von Histogrammen unterscheiden.
- In Histogrammen wird die Häufigkeit der Werte anhand von Wertebereichen dargestellt.
- In Boxplots befinden sich die mittleren 50 % der Daten in der Box. Die Ausreißer (falls vorhanden) werden außerhalb der Whiskers gezeichnet.
Um eine Vorstellung davon zu bekommen, wie dies aussieht, kehren wir zu den Daten zurück, die die Formen von Verteilungen der Körpergrößen von Personen zeigen. Vergleichen Sie, wie die Daten in einem Histogramm und einem Boxplot dargestellt werden.
Beachten Sie, wie viel weniger Platz ein Boxplot belegt, was den Vergleich von Verteilungen erleichtern kann. Drei nebeneinander liegende Verteilungen sind mit Boxplots leichter zu vergleichen als mit Histogrammen. Sehen wir uns noch weitere Beispiele an.
Sie wissen jetzt, wie Verteilungen Ihnen helfen können, Daten zu untersuchen, zu verstehen und mit ihnen zu kommunizieren.