Hinterfragen der Daten
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Untersuchen der Datenquelle und Diagramme
- Bewertung der Vertrauenswürdigkeit von Daten und Analysen
Ermitteln der Quelle
"Misstrauen Sie jeder Publikation, die die Quellen der von ihr veröffentlichten Beiträge nicht eindeutig angibt oder einen Link dazu enthält." – Alberto Cairo, Experte für Datenvisualisierung und Autor von "How Charts Lie"
Einige der Abbildungen in dieser Lektion wurden mit Erlaubnis von Alberto Cairo verwendet und seinem Buch How Charts Lie: Getting Smarter about Visual Information.
Von Geschäftsberichten bis hin zu Posts in sozialen Netzwerken ist es wichtig, die Quelle der Daten und Diagramme zu ermitteln und zu bewerten, auf die Sie stoßen. Die Kenntnis der Quelle ist der erste (und wichtigste!) Schritt, um festzustellen, ob ein Diagramm irreführend ist. Untersuchen Sie die Quelle, indem Sie Fragen stellen, um herauszufinden, wer, was, wo, wann und warum das Diagramm erstellt wurde.
Zu untersuchende Punkt |
Zweck |
Zu stellende Fragen |
---|---|---|
Wer |
Überprüfen der Datenquelle und der Frage, ob ein ureigenes Interesse an der Erstellung oder Darstellung der Informationen in einer bestimmten Weise besteht |
|
Was |
Verstehen des Typs der erhobenen Daten und ihrer Messung, sodass Sie die Genauigkeit der präsentierten Daten überprüfen können |
|
Ort |
Bewerten der angewendeten Methoden zur Datensammlung und weitere Einschätzung der Glaubwürdigkeit und des Kontexts der Quelle |
|
Wann |
Bestimmen der Relevanz der herangezogenen Daten auf Grundlage des Zeitpunkts der Erhebung |
|
Warum |
Aufdecken möglicher finanzieller, politischer, wissenschaftlicher, philanthropischer oder anderer Motivationen, die die Objektivität der präsentierten Daten beeinflussen könnten |
|
Um die Daten zu hinterfragen, sollten Sie die Metadaten, d. h. die Daten über die Daten, genau untersuchen. Lesen Sie die begleitende Dokumentation, um aus den Metadaten nützliche Erkenntnisse zu gewinnen, z. B. wann, wie und warum die Daten erhoben wurden.
Überprüfen der Zahlen
Kennen Sie die Redewendung "Müll rein, Müll raus"? Hinter dieser gängigen Redewendung verbirgt sich die Auffassung, dass die Qualität einer Ausgabe von der Qualität der Eingabe abhängt. Diese Auffassung wird auf eine Vielzahl von Bereichen übertragen, auch auf die Datennutzung. Wenn Sie Visualisierungen wie Diagramme betrachten, die auf ungenauen Daten beruhen (Müll rein), besteht die Gefahr, dass Sie falsche Schlussfolgerungen ziehen und wirkungslose Maßnahmen ergreifen (Müll raus). Um die Qualität und Genauigkeit der in Visualisierungen dargestellten Daten zu bestimmen, überprüfen Sie so viele der zugrunde liegenden Zahlen wie möglich.
Überprüfen der zusammenfassenden Werte
Diagramme werden häufig von zusammenfassenden Werten begleitet, die die zugrunde liegenden Daten beschreiben und zusammenfassen. Zusammenfassende Werte, auch bekannt als zusammenfassende Statistiken, vermitteln allgemeine Informationen über die Daten und oft aussagekräftige Erkenntnisse, die eine Betrachtung und weitere Untersuchung wert sind. Die nachstehende Tabelle soll Ihnen helfen, sich mit den gängigen zusammenfassenden Werten vertraut zu machen.
Zusammenfassender Wert |
Beschreibung |
---|---|
Summe |
Gesamtsumme der Werte |
Anzahl |
Die Anzahl der Werte |
Mittel |
Durchschnitt der Zahlen, berechnet durch Division der Gesamtanzahl der Zahlen (Summe) durch die Menge der Werte im Datenset (Anzahl) |
Median |
Der Mittelwert in einem Datenset, in dem die Werte in der Reihenfolge ihrer Größenordnung angeordnet sind (vom kleinsten zum größten) |
Modalwert |
Der häufigste Wert |
Bereich |
Die Differenz zwischen Minimum und Maximum |
Minimum |
Der kleinste Wert |
Maximum |
Der größte Wert |
Prüfen von Raten und Prozentsätzen
Mit Raten und Prozentsätzen wird ein Verhältnis zwischen Werten gemessen. Angenommen, drei von fünf Teilnehmern einer Präsentation registrieren sich für einen Newsletter. Das heißt, ⅗ oder 0,60 bzw. 60 % der Teilnehmer haben sich für den Newsletter registriert. Wie Sie im nächsten Abschnitt sehen werden, hilft Ihnen die Kenntnis der Rate oder des Prozentsatzes oft zu besseren Vergleichen.
Eine Artikelüberschrift lautete zum Beispiel: "2.139 DACA-Empfänger wegen Straftaten verurteilt oder angeklagt". Ohne Kontext könnte diese Zahl sehr hoch erscheinen. Wenn Sie sich jedoch die Rate oder den Prozentsatz ansehen, erhalten Sie eine andere Sicht. Im selben Artikel wird mitgeteilt, dass es mehr als 800.000 DACA-Empfänger gibt. Wenn Sie die Rate bzw. den Prozentsatz betrachten, ist das Ergebnis 2.139/800.000 bzw. 0,003 oder 0,3 %! Der Prozentsatz ist ein informativerer Wert und stellt keinen bedeutenden Prozentsatz der Gesamtanzahl von Empfängern dar.
Achten auf unzureichende Daten
"Kein Diagramm kann jemals die Realität in ihrer ganzen Fülle erfassen. Ein Diagramm kann aber auch besser oder schlechter ausfallen, je nachdem, ob es ein Gleichgewicht zwischen einer zu starken Vereinfachung dieser Realität und ihrer Verschleierung durch zu viele Details herstellen kann." – Alberto Cairo, How Charts Lie
Wenn Sie Diagramme lesen, fragen Sie sich, ob genügend Daten enthalten sind, um eine aussagekräftige und genaue Version des Sachverhalts zu liefern. In seinem Buch How Charts Lie erklärt Alberto Cairo, wie unzureichende Daten zu unrichtigen Schlussfolgerungen führen können. Um dies zu belegen, verweist Cairo auf einen Artikel, in dem es hieß, dass der Tax Cuts and Jobs Act (TCJA) von 2017 in den USA einer typischen vierköpfigen Familie jährliche Einsparungen in Höhe von 1.182 USD versprechen würde, und er erklärt, dass diese Zahl nicht die ganze Wahrheit widerspiegelte. Um eine umfassendere Darstellung zu bieten, beschreit Cairo ein Histogramm, eine Verteilung quantitativer Daten, in dem die Daten nach Bereichen gruppiert sind.
Warum diese Zahl eine allzu grobe Vereinfachung ist, lässt sich anhand des Histogramms nachvollziehen. Beim Betrachten der Daten im Histogramm fällt auf, dass eine große Bandbreite an Gehältern vertreten ist. Aufgrund dieser großen Bandbreite ist es äußerst schwierig, ein "typisches" Gehalt zu bestimmen. In den USA gibt es eindeutig eine beträchtliche Bandbreite bei Gehältern. Während 3 % der Haushalte ein Jahreseinkommen von unter 5.000 USD hatten, verdienten mehr als 9 % mehr als 200.000 USD. Die Diskussion über die durchschnittlichen Einsparungen durch den TCJA ist praktisch bedeutungslos, wenn es nahezu unmöglich ist, überhaupt ein genaues "typisches Gehalt" zu berechnen.
In der nächsten Lektion erfahren Sie mehr über die Bedeutung gleichmäßiger Intervalle auf Achsen.
Ressourcen
- Trailhead: Datenkompetenz – Grundlagen
- Trailhead: Aggregation und Granularität
- Trailhead: Datenverteilungen
- Buch: Alberto Cairo (2020): How Charts Lie: Getting Smarter About Visual Information, W.W. Norton & Company
- Buch: Edward Tufte (2006): Beautiful Evidence. Graphics Press
- Tableau-Website: Understanding and Using Histograms
- Buch: Steve Few (2012) Show Me the Numbers, Analytics Press