Erkunden von Granularität
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Definieren von Granularität
- Ermitteln der Auswirkungen von Aggregation und Granularität auf Daten
Was ist Granularität?
Der Begriff Granularität bezeichnet den Detailgrad von Daten. In der vorherigen Lektion haben Sie sich das folgende Balkendiagramm angesehen, bei dem alle Werte in der Variable Age (Alter) eines Datensets zu einer Summe aggregiert wurden. Die Informationen sind nicht sehr detailliert und haben daher eine geringe Granularität.
Das Balkendiagramm zeigt vollständig aggregierte Daten mit einem einzelnen Zahlenwert für das gesamte Datenset. Das Jitter-Diagramm zeigt vollständig disaggregierte Daten mit einer Markierung für jeden Wert. Das Jitter-Diagramm ist detaillierter und hat daher eine höhere Granularität als das Balkendiagramm. Das Balkendiagramm weist eine hohe Aggregierung und geringe Granularität auf. Das Jitter-Diagramm weist eine geringe Aggregierung und hohe Granularität auf.
Diese disaggregierten Daten zeigen die geringste Detailgenauigkeit, die die höchste Granularität aller Visualisierungen bietet. "Geringste Detailgenauigkeit" ist eines der Merkmale aussagekräftiger Daten wie im Modul "Gut strukturierte Daten" erläutert.
Beispiele für Granularität
Lassen Sie uns die Granularität weiter erkunden. Wir nutzen ein Datenset, das Informationen über ein Franchise-Unternehmen enthält, und untersuchen die Daten mithilfe von Granularitätsebenen.
Dieses Datenset enthält über 50.000 Zeilen. Jede dieser Zeilen enthält Informationen zu einem einzelnen Verkauf. Mit geringerer Granularität (höherer Aggregierung) können Sie größere Muster ermitteln. Mit höherer Granularität (geringerer Aggregierung) können Sie die Details hinter den Mustern sehen.
Mit einem Streudiagramm können Benutzer numerische Daten, also quantitative Variablen, sowohl auf einer horizontalen als auch auf einer vertikalen Achse darstellen. Damit lassen sich Korrelationen oder Beziehungen zwischen Daten ermitteln. Mithilfe eines Streudiagramms kann beispielsweise festgestellt werden, welche Beziehung zwischen Umsatz und Gewinn eines Unternehmens besteht.
Anzeigen eines Streudiagramms mit zwei quantitativen Variablen
Wir beginnen mit den quantitativen Variablen Gewinn und Umsatz, die Sie im folgenden Streudiagramm sehen.
Hier wird ein Wert (Umsatz) einem anderen Wert (Gewinn) gegenübergestellt. Die beiden Werte werden mit nur einem Datenpunkt oder einer Markierung verglichen, da "Umsatz" und "Gewinn" vollständig zu einem Einzelwert aggregiert wurden (Summe von Umsatz und Summe von Gewinn).
Die Daten sind nicht sehr detailliert und haben daher eine geringe Granularität. Um mehr über Gewinn und Umsatz des Unternehmens zu erfahren, müssen die Daten granularer sein.
Anzeigen eines Streudiagramms mit einer hinzugefügten qualitativen Variablen
Durch Hinzufügen einer qualitativen Variablen zum Streudiagramm wird die Granularität der Daten erhöht.
Mit der farblich markierten qualitativen Variablen Kategorie werden die Daten in drei Markierungen aufgeteilt und zwar in jeweils eine für jede verkaufte Produktkategorie. Es ist zwar granularer als das Streudiagramm mit nur einer Markierung, aber möglicherweise möchten Sie die Daten dennoch detaillierter anzeigen.
Sehen Sie sich den Gewinn nach Kategorie im folgenden Streudiagramm an. Der Gewinn für Möbel ist niedriger als in den beiden anderen Kategorien. Es ist nun sinnvoll, zur Beantwortung dieser Frage die Granularität zu erhöhen. Dabei prüfen wir, ob dieser Trend auch für Märkte in anderen Regionen gilt.
Anzeigen eines Streudiagramms mit einer zweiten hinzugefügten qualitativen Variablen
Mit der zusätzlichen qualitativen Variablen Region in der Visualisierung können wir feststellen, ob für Möbel in allen regionalen Märkten niedrigere Gewinne erzielt werden. Die Anzahl der einzelnen Regionen in der Datenquelle wird mit der Anzahl der Kategorien multipliziert, um Markierungen im Streudiagramm zu erstellen. Die 13 Regionen werden also mit den drei Kategorien multipliziert, um 39 Markierungen im Streudiagramm zu erzeugen.
Die Daten sind jetzt so granular, dass Sie eine mögliche Ursache für die niedrigen Gewinne bei Möbeln erkennen können. Die Region Südostasien verzeichnet deutlich niedrigere Gewinne bei Möbeln als andere Regionen. Sie erhöhen nun noch einmal die Granularität der Daten, um mehr über die fehlende Rentabilität bei Möbelverkäufen in dieser Region zu erfahren.
Anzeigen eines Streudiagramms mit gefilterten Daten
Sie sehen, dass die Region Südostasien niedrigere Gewinne bei Möbeln aufweist als andere Regionen. Sie möchten herausfinden, ob diese fehlende Rentabilität nur auf eine oder zwei Verkäufe zurückzuführen ist oder ob viele Verkäufe unrentabel sind.
Sie wissen, dass das Datenset für jeden Verkauf eine Zeile enthält. Wenn die Daten disaggregiert sind, wird ein Datenpunkt bzw. eine Markierung für jeden Verkauf im Datenset angezeigt. Doch ehe Sie die Daten auf diese Ebene disaggregieren, filtern Sie die Daten, um nur die Möbelverkäufe in der Region Südostasien zu erhalten.
Das folgende Streudiagramm zeigt, dass die gefilterten Daten nur eine Markierung für Möbelverkäufe in Südostasien enthalten.
Anzeigen disaggregierter Daten
Nachdem die Daten so gefiltert wurden, dass nur Möbelverkäufe in Südostasien gezeigt werden, können Sie nun die Daten in ihrer höchsten Granularität betrachten.
Wenn Sie die Daten disaggregieren, wird für jeden Datenwert in jeder Zeile der ausgewählten Daten eine eigene Markierung angezeigt. In der folgenden Visualisierung sehen Sie eine Markierung für jeden Möbelverkauf in Südostasien. Das Erkunden der Granularitätsebenen auf diese Weise führt zu einer wichtigen Erkenntnis: Viele Möbelverkäufe in Südostasien sind unrentabel.
Sie wissen nun, wie sich vordefinierte Aggregationen auf Daten auswirken und wie verschiedene Granularitätsebenen die Datenanalyse beeinflussen.
Ressourcen
-
Tableau-Hilfe: Streudiagramme, Aggregation und Granularität (in englischer Sprache)
-
Tableau-Website: Kostenlose Schulungsvideos
-
Externe Website: Tableau-Tutorials: So erstellt man ein Jitter-Diagramm (in englischer Sprache)