Schätzen von Wahrscheinlichkeit
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Beschreiben fortlaufender Verteilungen
- Beschreiben der Merkmale einer Normalverteilung
Einleitung
Im Modul Datenverteilungen wird gezeigt, dass Sie ein Histogramm verwenden können, um die Verteilung fortlaufender Werte grafisch darzustellen. Schauen wir uns nun das Konzept fortlaufender Verteilungen an.
Wir gehen hier nicht auf die Formeln ein, die für die in dieser Lektion erwähnten Berechnungen zum Einsatz kommen. Eine allgemeine Vertrautheit mit diesen Konzepten kann jedoch nützlich sein, wenn Sie weiterhin Daten erkunden, verstehen und mit ihnen kommunizieren möchten.
Dichtekurven
Im Modul Datenverteilungen wird erklärt, wie Histogramme die Verteilungen endlicher Stichproben fortlaufender Variablen darstellen können. Die Höhe der einzelnen Balken im Histogramm ist proportional zur Häufigkeit der Werte innerhalb dieses Wertebereichs. Mit anderen Worten: Je höher der Balken, desto häufiger liegen die Datenpunkte der Stichprobe in diesem Wertebereich.
Das Histogramm auf der linken Seite zeigt z. B. die Verteilung der Körpergröße in Zoll für 40 Personen. Freilich handelt es sich hier um eine Datenstichprobe mit einer endlichen Anzahl von Datenpunkten. Wenn Sie jedoch alle möglichen Werte der fortlaufenden Variable "Körpergröße" betrachten, sehen Sie, dass sie stark schwanken kann. Unser Leben hat nicht genug Stunden, um ein Histogramm mit Wertebereichen für jeden möglichen Körpergrößenwert zu erstellen. Dies gilt für jede fortlaufende Variable.
Anstatt alle möglichen Werte für eine fortlaufende Variable in einem Histogramm darzustellen, können wir auch eine fortlaufende Verteilung verwenden. Eine fortlaufende Verteilung sieht aus wie eine glatte Kurve und wird auch als Dichtekurve bezeichnet. Die Dichtekurve stellt mehr als nur die Werte in einer bestimmten Stichprobe dar. Sie stellt alle möglichen Werte sowie die Wahrscheinlichkeit ihres Vorkommens dar.
Bei Betrachtung von Histogrammen orientieren wir uns an der Höhe der Balken, um zu verstehen, wie viele Datenpunkte im jeweiligen Bereich vorkommen bzw. wie häufig die Datenpunkte in diesem Bereich liegen. Wenn wir jedoch fortlaufende Verteilungen betrachten, können wir die Höhe einer Wahrscheinlichkeitskurve nicht auf diese Weise interpretieren.
Stellen Sie sich Daten vor, die alle möglichen Werte für die Körpergröße enthalten. Es ist nicht sinnvoll, nach der Wahrscheinlichkeit zu fragen, dass jemand genau 61 Zoll groß ist. Bei einer unendlichen Anzahl von Werten ist die Frage nach 61 Zoll genauso willkürlich wie die Frage nach der Wahrscheinlichkeit, dass jemand 61,002 Zoll oder 60,9997 Zoll groß ist.
Stattdessen betrachten wir die Wahrscheinlichkeit innerhalb eines Intervalls, das der Fläche unter der Kurve innerhalb dieses Intervalls entspricht.
Die Gesamtfläche unter der Kurve ist 1 oder 100 %, da die Wahrscheinlichkeit, dass alle möglichen Werte irgendwo innerhalb der Kurve liegen, 100 % beträgt.
Zusammenfassend möchten wir Ihnen einige Konzepte vorstellen, die Sie bei der Betrachtung von Dichtekurven beachten sollten.
- Die Gesamtfläche unter der Kurve beträgt 100 % oder 1.
- Es handelt sich um fortlaufende Verteilungen, die alle möglichen Datenpunkte auf einmal darstellen.
- Die y-Achse stellt die Wahrscheinlichkeitsdichte dar, die die Wahrscheinlichkeit angibt, Werte in der Nähe der entsprechenden Punkte auf der x-Achse zu erhalten.
Normalverteilung
Als Nächstes wollen wir uns mit einer speziellen Dichtekurve beschäftigen, der Normalverteilung oder Normalkurve. Sie hat eine symmetrische Glockenform.
Bei Betrachtung der Verteilungen fortlaufender Variablen in Histogrammen haben Sie gelernt, wie eine symmetrische Verteilung beschrieben wird. Wenn Sie ein symmetrisch verteiltes Histogramm in der Hälfte falten, stimmen die beiden Seiten perfekt übereinstimmen. Bei symmetrischen Verteilungen sind Mittelwert und Median gleich.
Ebenso wie bei symmetrischen Verteilungen ist auch bei einer Normalverteilung die Form symmetrisch und der Mittelwert gleich dem Median.
Es folgen die Hauptmerkmale einer Normalverteilung.
- Die Werte liegen symmetrisch um den Mittelwert.
- Mittelwert und Median sind gleich.
- Die Fläche unter der Normalkurve ist gleich 1,0 (bzw. 100 %).
- Die Werte sind in der Mitte dichter und in den Schwänzen weniger dicht.
- Sie werden durch zwei Parameter definiert, nämlich Mittelwert und Standardabweichung.
Betrachten Sie die auf der obigen Kurve dargestellte Normalverteilung. Bei einer Normalverteilung liegen 68 % der Daten im Bereich +1 und -1 der Standardabweichungen vom Mittelwert, 95 % der Daten liegen im Bereich -2 und +2 der Standardabweichungen vom Mittelwert. Die kurzen "Schwänze" auf beiden Seiten der Kurve zeigen an, dass nur sehr wenige Werte (5 %) außerhalb der Standardabweichungen im Bereich -2 und +2 vom Mittelwert liegen.
Normalverteilungen mit kleineren Standardabweichungen haben schmalere und höhere Kurven als Normalverteilungen mit größeren Standardabweichungen.
In dieser Abbildung haben beide Normalverteilungen den Mittelwert 50. Die höhere Kurve hat die Standardabweichung 5, die kürzere Kurve die Standardabweichung 10.
Nützlichkeit der Normalverteilung
In seinem Buch "The Truthful Art" erklärt Informationsdesigner und Professor Alberto Cairo, dass "kein Phänomen in der Natur einer perfekten Normalverteilung folgt, aber viele sich ihr so weit nähern, dass sie zu einem der wichtigsten Werkzeuge der Statistik wird". Cairo erklärt weiter: "Wenn Sie wissen, dass das von Ihnen untersuchte Phänomen normalverteilt ist, wenn auch nicht perfekt, können Sie die Wahrscheinlichkeit eines beliebigen Falls oder Ergebnisses mit angemessener Genauigkeit schätzen." Mit anderen Worten: Die Eigenschaften der Normalkurve können genutzt werden, um die Wahrscheinlichkeit eines Falls oder Ergebnisses mit angemessener Genauigkeit zu schätzen.
Schätzungen der Grundgesamtheit werden oft von einer Stichprobe abgeleitet, da es selten möglich ist, die gesamte Grundgesamtheit zu messen. Wenn die Stichprobe die Grundgesamtheit repräsentiert, ist die Normalkurve ein nützliches Schätzungsinstrument.
Konfidenzintervalle
Wenn Sie Wahrscheinlichkeitsschätzungen für Stichprobendaten anhand der Normalkurve vornehmen, können Sie mithilfe von Konfidenzintervallen eine Fehlermarge ermitteln.
Konfidenzintervalle sind ein Beispiel für Folgerung. Unter Folgerung wird das Ziehen von Rückschlüssen bezüglich einer Grundgesamtheit auf Grundlage einer Stichprobe der Daten verstanden.
Ein Konfidenzintervall enthält einen Mittelwert der Grundgesamtheit für einen bestimmten Zeitanteil. Wenn Sie beispielsweise ein Konfidenzintervall von 95 % wünschen, bedeutet dies, dass 95 % der Intervalle in Ihren Daten den tatsächlichen Mittelwert enthalten.
Das Konfidenzintervall von 95% ergibt sich aus der Normalverteilung, bei der 95% der Daten innerhalb des Bereichs von -2 und +2 Standardabweichungen vom Mittelwert liegen.
Betrachten wir ein Beispiel aus dem Kapitel über Konfidenzintervalle von David M. Lane in seinem online kostenlos verfügbaren Werk Introduction to Statistics.
Stellen Sie sich vor, Sie interessieren sich für das Durchschnittsgewicht (in der US-Maßeinheit Pfund) von 10-jährigen Kindern in den USA. Sie können unmöglich alle 10-Jährigen wiegen. Stattdessen wiegen Sie eine Stichprobe von 16 Kindern und stellen fest, dass das Durchschnittsgewicht bei 90 Pfund liegt. Dieser Stichprobenmittelwert 90 ist eine Punktschätzung des Mittelwerts der Grundgesamtheit. Er vermittelt Ihnen jedoch keine klare Vorstellung davon, wie weit der Mittelwert der Stichprobe vom Mittelwert der Grundgesamtheit entfernt liegen könnte. Mit anderen Worten: Können Sie sicher sein, dass das Durchschnittsgewicht der gesamten Grundgesamtheit der 10-jährigen Kinder in den USA innerhalb von 5 Pfund von 90 liegt? Das können Sie einfach nicht wissen.
Sie können jedoch eine (hier nicht erläuterte) Berechnung verwenden, um zu einem Konfidenzintervall von 95 % zu gelangen. Das Konfidenzintervall von 95 % würde mittlere Gewichte von 72,85 bis 107,15 Pfund einschließen.
Mit anderen Worten: Es gibt guten Grund zur Annahme, dass das Durchschnittsgewicht in der gesamten Grundgesamtheit der 10-jährigen Kinder in den USA im Bereich von 72,85 bis 107,15 Pfund liegt, denn nach wiederholten Stichproben mit einem für jede Stichprobe berechneten Konfidenzintervall von 95 % würden die Intervalle in 95 % der Fälle den tatsächlichen Mittelwert enthalten.
Das bedeutet aber auch, dass die Intervalle in 5 % der Fälle nicht den tatsächlichen Mittelwert enthalten.
Beispiele aus der Praxis für das Erkennen von Ungewissheit
Alberto Cairo, der bereits in dieser Lektion erwähnt wurde, hat eine Reihe von Blogeinträgen verfasst, in denen er Beispiele aus der Praxis beschreibt, wie Unsicherheit in Visualisierungen zur Darstellung von Hurrikanverläufen dargestellt (und missverstanden) wurde. Einen Blogeintrag über die Fehlinterpretation von Vorhersagekarten für den Sturm der Kategorie 5, Hurrikan Dorian, im Jahr 2019 sowie weitere damit zusammenhängende Themen finden Sie auf der beruflichen Website von Alberto Cairo.
Sie sind nun mit fortlaufenden Verteilungen vertraut, einschließlich der besonderen Form der Normalkurve. In der nächsten Lektion untersuchen wir das Konzept der Hypothesenprüfung bei der Arbeit mit Datenstichproben.