Kennenlernen der Datenorganisation
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Beschreiben, wie gut strukturierte Daten organisiert sind
- Unterscheiden zwischen gut strukturierten Daten und schlecht formatierten Daten
Einleitung
In der vorherigen Lektion haben Sie einige Merkmale hochwertiger, nützlicher Daten kennengelernt. Zwei Merkmale, die sich speziell auf die Datenorganisation beziehen, sind "dimensional strukturiert" und "atomisch". Dimensional strukturierte Daten sind in zwei Typen unterteilt: Dimensionen (qualitative Werte) und Kennzahlen (quantitative Werte). Dies ist die Organisationsstruktur, mit der Daten in Tableau interpretiert werden. Atomische Daten sind sehr detailliert und ermöglichen Ihnen die Analyse der Daten auf verschiedenen Detailebenen.
Wenn Daten organisiert sind, lassen sie sich leichter analysieren, da sie auf viele verschiedene Arten untersucht, zusammengefasst, durchsucht und gefiltert werden können. Nicht organisierte Daten sind oft nur begrenzt analysierbar. Wenn Daten beispielsweise bereits nach Monat zusammengefasst sind, können tägliche oder wöchentliche Trends nicht untersucht werden.
In dieser Lektion erfahren Sie, wie gut strukturierte Daten organisiert sind.
Datenorganisation
Daten sind in Zeilen und Spalten organisiert.
- Spalten sind vertikale Elemente, die jeweils unterschiedliche Variablen (oder Felder) enthalten. Im Modul Datenkompetenz – Grundlagen ist eine Variable als Messwert, Eigenschaft oder Merkmal eines Elements definiert, das variieren oder sich ändern kann. Auf der Tableau-Plattform werden Variablen als Felder bezeichnet.
- Zeilen sind horizontale Elemente, wobei jede Zeile eine Analyseeinheit darstellt. Auf der Tableau-Plattform werden diese Analyseeinheiten Werte genannt.
Sehen wir uns ein Beispiel an. Dabei geht es um Familienmitglieder oder Freunde, für die eine Tabelle mit Variablen (bzw. Feldern) erstellt wird: Name, Alter, Körpergröße und Lieblingsessen. Diese Tabelle kann z. B. wie folgt aussehen:
Name | Alter | Körpergröße (cm) | Lieblingsessen |
---|---|---|---|
Anja |
8 |
127 |
Speiseeis |
Martin |
12 |
160 |
Olivenpizza |
Penelope |
42 |
170 |
Maiskolben |
Vincent |
39 |
178 |
Pfannkuchen |
Die Variablen (oder Felder) sind also in Form von Spalten angeordnet, jeweils eine für Name, Alter, Körpergröße und Lieblingsessen. Jede Zeile steht für eine Analyseeinheit (bzw. einen Wert). In diesem Fall lässt sich jeder Zeile Name, Alter, Körpergröße und Lieblingsessen einer Person entnehmen. Anja ist beispielsweise 8 Jahre alt, 127 cm groß und mag Speiseeis.
Die Organisation gut strukturierter Daten
Gut strukturierte Daten sind wie folgt organisiert.
- Jede Variable (Feld) befindet sich in einer Spalte mit einer Spaltenüberschrift.
- Jede unterschiedliche Beobachtung der betreffenden Variable (Wert) befindet sich in einer anderen Zeile.
Ein Beispiel ist diese einfache Tabelle. Die darin enthaltenen Variablen (Felder) sind Anbieter, Ort und Bundesland. Für jede Variable ist eine eigene Spalte mit Spaltenüberschrift vorhanden. In jeder Zeile sind die Beobachtungen der Variablen (Werte) aufgeführt, in diesem Fall der Name des Anbieters und der Standort nach Stadt und Bundesland. Die Angabe des Bundeslandes in einer eigenen Spalte ermöglicht das Suchen und Filtern von Anbietern nach Bundesland. Wenn Stadt und Bundesland des Anbieters in einem Feld zusammengefasst wären, ließe sich diese Analyse nicht so einfach durchführen.
Anbieter | Ort | Bundesland |
---|---|---|
Weingut Müller |
Dresden |
Sachsen |
Weingut Meier |
Stuttgart |
Baden-Württemberg |
Weingut Schmidt |
Rüdesheim |
Hessen |
Weingut Berger |
Mainz |
Rheinland-Pfalz |
Schlecht formatierte Daten
Schlecht formatierte Daten enthalten bestimmte Merkmale, die zu Unordnung in den Daten führen oder die Interpretation der Daten durch Softwareprogramme, einschließlich Tableau, erschweren können. Hierzu zählen einige dieser Probleme:
- Variablen (Felder) befinden sich nicht in je einer Spalte mit Spaltenüberschrift.
- Jede unterschiedliche Beobachtung der Variable (Werte) befindet sich nicht in einer anderen Zeile.
- Titel sind als Zeilen über den Spaltenüberschriften oder als zusätzliche Spalten formatiert.
- Es gibt zusätzliche Spalten und Zeilen.
- Spaltenüberschriften sind als Untertitel formatiert und befinden sich nicht in der ersten Zeile.
Hier ist zum Beispiel eine schlecht formatierte Tabelle, die die durchschnittliche Anzahl der Filme dokumentiert, die eine Stichprobe mit 16.000 Personen in Kalifornien und New York 2019 gesehen hat.
Fällt Ihnen eines der oben aufgeführten Merkmale schlecht formatierter Daten auf?
- A. Titel in Zeilen: Die erste Zeile sollte nur Spaltenüberschriften enthalten. Diese und die darunter liegende Zeile sind Titel, keine Spaltenüberschriften.
- B. Spaltenüberschriften in der dritten Zeile: Trotz Hervorhebung werden die Zellen für "Merkmal" und "Stichprobengröße" von den meisten Softwareprogrammen, so auch von Tableau, nicht als Spaltenüberschriften interpretiert.
- C. Zusätzliche Spalte: Dies ist der Titel des Berichts, der aber als eigene Spalte formatiert ist.
- D. Zusätzliche Zeile: "Bundesstaat" ist eine Variable (Feld) und sollte in einer eigenen Spalte mit Spaltenüberschrift enthalten sein und nicht in einer Zeile.
- E. (und F.) Variable (Feld) als Untertitel: Untertitel ("Altersgruppe" und "Durchschnittliche Anzahl der 2019 gesehenen Filme") in dieser Spalte sind Variablen (Felder), die sich in eigenen Spalten befinden sollten.
Sie wissen jetzt, wie Daten organisiert sind und wie sich gut strukturierte und schlecht formatierte Daten unterscheiden. In der nächsten Lektion erkunden Sie verschiedene Möglichkeiten zum Neustrukturieren schlecht formatierter Daten.