Neustrukturieren von Daten
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Bestimmen der Optionen zur Neustrukturierung von Daten
- Beschreiben des Zwecks des Pivotierens von Daten
- Beschreiben des Zwecks des Trennens von Daten
Einleitung
Sie haben gelernt, gut strukturierte Daten zu erkennen, indem Sie die Merkmale hochwertiger, aussagekräftiger Daten bestimmt haben, und Sie haben erfahren, wie gut strukturierte Daten organisiert sind. Doch welche Möglichkeiten haben Sie, wenn Ihre Daten nicht gut strukturiert sind? In dieser Lektion erkunden Sie einige Optionen zur Neustrukturierung Ihrer Daten, z. B. Pivotieren und Aufteilen von Variablen (Felder).
Optionen zum Neustrukturieren von Daten
Sie haben die folgenden Optionen zum Neustrukturieren von Daten:
- Ändern der zugrunde liegenden Datenbank
- Verwenden einer Programmiersprache wie R oder Python
- Verwenden von Tools, z. B. zum Pivotieren und Aufteilen von Daten, auf der Tableau-Plattform, darunter Tableau Prep Builder oder Tableau Desktop
- Nutzen anderer ETL-Tools (Extrahieren, Transformieren, Laden)
In manchen Fällen passen Sie die Metadaten zur Beschreibung der Daten an, anstatt die eigentlichen Daten zu ändern. Metadaten können Informationen wie Berechnungen, umbenannte Felder und Standardformatierungen enthalten. In Metadaten kann auch angegeben werden, welche Änderungen an der Datenstruktur vorgenommen wurden.
Wiederholung: Gut strukturierte Daten
Rufen Sie sich in Erinnerung, was Sie in diesem Modul über die Organisation gut strukturierter Daten gelernt haben.
- Jede Variable befindet sich in einer Spalte mit einer Spaltenüberschrift.
- Jede unterschiedliche Beobachtung der betreffenden Variable befindet sich in einer anderen Zeile.
Bisher haben wir diese einfache Beispieltabelle verwendet. Diese Daten sind gut strukturiert. Die Variablen sind Anbieter, Ort und Bundesland. Für jede Variable ist eine eigene Spalte mit Spaltenüberschrift vorhanden. In jeder Zeile sind die Beobachtungen (bzw. Werte) der Variablen aufgeführt, in diesem Fall der Name des Anbieters und der Standort nach Stadt und Bundesland.
Anbieter |
Ort |
Bundesland |
---|---|---|
Weingut Müller |
Dresden |
Sachsen |
Weingut Meier |
Stuttgart |
Baden-Württemberg |
Weingut Schmidt |
Rüdesheim |
Hessen |
Weingut Berger |
Mainz |
Rheinland-Pfalz |
Wenn Ihre Daten nicht gut strukturiert sind, müssen Sie einige Aufgaben zur Datenaufbereitung erledigen, damit das Datenset für die Analyse nützlich ist.
Es folgen einige gängige Aufgaben, um schlecht strukturierte Daten in gut strukturierte Daten umzuwandeln:
- Pivotieren von Spalten in Zeilen oder umgekehrt
- Aufteilen von Feldern
Was bedeutet Pivotieren?
Einfach ausgedrückt werden Spalten durch Pivotieren in Zeilen umgewandelt und in manchen Fällen auch umgekehrt.
Nutzen Sie das Pivotieren bei "breiten" Datensets, wenn die Informationen in vielen Spalten erfasst werden und die Spalten ähnliche Informationen enthalten. Diese Struktur ist eventuell geeigneter für einen Benutzerbericht, aber für die Analyse nicht unbedingt hilfreich. Beispielsweise funktioniert die Analyse von Daten in Tableau Desktop am besten in einer "großen/schlanken" Tabellenstruktur.
Wir wollen dies anhand einer Tabelle mit den Parkgebühren von Mitarbeitern veranschaulichen. Darin gibt es für jeden Mitarbeiter eine Zeile mit einem Feld (Spalte) für jedes Datum (05.02.2020, 06.02.2020 usw.).
Mitarbeiter |
05.02.2020 |
06.02.2020 |
07.02.2020 |
08.02.2020 |
09.02.2020 |
---|---|---|---|---|---|
Christine |
10 |
10 |
10 |
10 |
10 |
Tristan |
10 |
||||
Lily |
10 |
10 |
|||
Jamal |
10 |
10 |
Wenn wir diese Datenstruktur in Tools wie z. B. Tableau Desktop übernehmen, wird jede Spalte zu einem Feld. Es gibt dann also fünf Felder, die allesamt die bezahlten Parkgebühren für jeweils einen Tag enthalten. Dies erschwert die Analyse im Zeitablauf, da die Daten in eigenen Feldern gespeichert sind. Für die Felder (Variablen) Mitarbeiter, Datum und Parkgebühr sollten deshalb eigene Spalten mit Spaltenüberschriften angelegt werden. Jede Zeile sollte die jeweiligen Werte (die Beobachtungen der Variablen) enthalten, in diesem Fall Mitarbeitername, Datum und Betrag der bezahlten Parkgebühr.
Nach einer Pivotierung ergibt sich die gewünschte Datenstruktur, wie in der folgenden Tabelle gezeigt. Sie können diese Daten nun analysieren, indem Sie die Trends im Zeitverlauf betrachten, da sich alle Datumswerte in einer Spalte befinden.
Mitarbeiter |
Datum |
Parkgebühr |
---|---|---|
Christine |
05.02.2020 |
10 |
Christine |
06.02.2020 |
10 |
Christine |
07.02.2020 |
10 |
Christine |
08.02.2020 |
10 |
Christine |
09.02.2020 |
10 |
Tristan |
05.02.2020 |
10 |
Lily |
05.02.2020 |
10 |
Lily |
09.02.2020 |
10 |
Jamal |
05.02.2020 |
10 |
Jamal |
07.02.2020 |
10 |
Was ist eine Aufteilung?
Einfach ausgedrückt, wird bei einer Aufteilung eine Spalte, die mehrere Informationseinheiten enthält, in mehrere Spalten aufgeteilt, und zwar eine für jede einzelne Information.
Eine Aufteilung trennt Feldwerte mit Zeichenfolgen (Text) anhand eines Trennzeichens (z. B. Komma, Doppelpunkt oder Bindestrich, das sich zwischen verschiedenen Informationseinheiten innerhalb eines Feldwerts befindet). Aufteilungen sind nützlich, wenn Feldkomponenten eine Bedeutung haben, die Sie zur Analyse Ihrer Daten nutzen können.
Im folgenden Beispiel enthalten die Werte im Feld Fluggesellschaft sowohl den Namen als auch den zweistelligen Code der Fluggesellschaft. Der Doppelpunkt zwischen diesen beiden Informationseinheiten ist das Trennzeichen.
Fluggesellschaft |
---|
Lufthansa: LH |
Eurowings: EW |
Ryanair: FR |
TUIfly: X3 |
Nach der Aufteilung befinden sich die Namen und Kürzel der Fluggesellschaften in verschiedenen Spalten der Tabelle. Jetzt ist es einfacher, diese Daten nach Kürzel der Fluggesellschaften zu analysieren.
Fluggesellschaft |
Kürzel der Fluggesellschaft |
---|---|
Lufthansa |
LH |
Eurowings |
EW |
Ryanair |
FR |
TUIfly |
X3 |
Sie kennen sich nun mit Merkmalen und der Organisation von Daten sowie den Optionen zum Neustrukturieren von Daten einschließlich Pivotieren und Aufteilen von Feldern aus.
Beantworten Sie die erste Frage des Quiz mithilfe der folgenden Tabelle.
Stadt | US-Bundesstaat | Q1 | Q2 | Q3 | Q4 |
---|---|---|---|---|---|
San Francisco |
CA |
25.465 USD |
15.389 USD |
19.268 USD |
28.491 USD |
New York |
NY |
42.543 USD |
39.642 USD |
41.687 USD |
44.594 USD |
Seattle |
WA |
38.756 USD |
32.174 USD |
33.452 USD |
39.892 USD |