Skip to main content

Neustrukturieren von Daten

Lernziele

Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:

  • Bestimmen der Optionen zur Neustrukturierung von Daten
  • Beschreiben des Zwecks des Pivotierens von Daten
  • Beschreiben des Zwecks des Trennens von Daten

Einleitung

Sie haben gelernt, gut strukturierte Daten zu erkennen, indem Sie die Merkmale hochwertiger, aussagekräftiger Daten bestimmt haben, und Sie haben erfahren, wie gut strukturierte Daten organisiert sind. Doch welche Möglichkeiten haben Sie, wenn Ihre Daten nicht gut strukturiert sind? In dieser Lektion erkunden Sie einige Optionen zur Neustrukturierung Ihrer Daten, z. B. Pivotieren und Aufteilen von Variablen (Felder).

Optionen zum Neustrukturieren von Daten

Sie haben die folgenden Optionen zum Neustrukturieren von Daten: 

  • Ändern der zugrunde liegenden Datenbank
  • Verwenden einer Programmiersprache wie R oder Python
  • Verwenden von Tools, z. B. zum Pivotieren und Aufteilen von Daten, auf der Tableau-Plattform, darunter Tableau Prep Builder oder Tableau Desktop
  • Nutzen anderer ETL-Tools (Extrahieren, Transformieren, Laden)

In manchen Fällen passen Sie die Metadaten zur Beschreibung der Daten an, anstatt die eigentlichen Daten zu ändern. Metadaten können Informationen wie Berechnungen, umbenannte Felder und Standardformatierungen enthalten. In Metadaten kann auch angegeben werden, welche Änderungen an der Datenstruktur vorgenommen wurden.

Wiederholung: Gut strukturierte Daten

Rufen Sie sich in Erinnerung, was Sie in diesem Modul über die Organisation gut strukturierter Daten gelernt haben.

  • Jede Variable befindet sich in einer Spalte mit einer Spaltenüberschrift.
  • Jede unterschiedliche Beobachtung der betreffenden Variable befindet sich in einer anderen Zeile.

Bisher haben wir diese einfache Beispieltabelle verwendet. Diese Daten sind gut strukturiert. Die Variablen sind Anbieter, Ort und Bundesland. Für jede Variable ist eine eigene Spalte mit Spaltenüberschrift vorhanden. In jeder Zeile sind die Beobachtungen (bzw. Werte) der Variablen aufgeführt, in diesem Fall der Name des Anbieters und der Standort nach Stadt und Bundesland.

Anbieter
Ort
Bundesland

Weingut Müller

Dresden

Sachsen

Weingut Meier

Stuttgart

Baden-Württemberg

Weingut Schmidt

Rüdesheim

Hessen

Weingut Berger

Mainz

Rheinland-Pfalz

Wenn Ihre Daten nicht gut strukturiert sind, müssen Sie einige Aufgaben zur Datenaufbereitung erledigen, damit das Datenset für die Analyse nützlich ist.

Es folgen einige gängige Aufgaben, um schlecht strukturierte Daten in gut strukturierte Daten umzuwandeln:

  • Pivotieren von Spalten in Zeilen oder umgekehrt
  • Aufteilen von Feldern

Was bedeutet Pivotieren?

Einfach ausgedrückt werden Spalten durch Pivotieren in Zeilen umgewandelt und in manchen Fällen auch umgekehrt.

Nutzen Sie das Pivotieren bei "breiten" Datensets, wenn die Informationen in vielen Spalten erfasst werden und die Spalten ähnliche Informationen enthalten. Diese Struktur ist eventuell geeigneter für einen Benutzerbericht, aber für die Analyse nicht unbedingt hilfreich. Beispielsweise funktioniert die Analyse von Daten in Tableau Desktop am besten in einer "großen/schlanken" Tabellenstruktur.

Wir wollen dies anhand einer Tabelle mit den Parkgebühren von Mitarbeitern veranschaulichen. Darin gibt es für jeden Mitarbeiter eine Zeile mit einem Feld (Spalte) für jedes Datum (05.02.2020, 06.02.2020 usw.).

Mitarbeiter
05.02.2020
06.02.2020
07.02.2020
08.02.2020
09.02.2020

Christine

10

10

10

10

10

Tristan

10





Lily

10




10

Jamal

10


10



Wenn wir diese Datenstruktur in Tools wie z. B. Tableau Desktop übernehmen, wird jede Spalte zu einem Feld. Es gibt dann also fünf Felder, die allesamt die bezahlten Parkgebühren für jeweils einen Tag enthalten. Dies erschwert die Analyse im Zeitablauf, da die Daten in eigenen Feldern gespeichert sind. Für die Felder (Variablen) Mitarbeiter, Datum und Parkgebühr sollten deshalb eigene Spalten mit Spaltenüberschriften angelegt werden. Jede Zeile sollte die jeweiligen Werte (die Beobachtungen der Variablen) enthalten, in diesem Fall Mitarbeitername, Datum und Betrag der bezahlten Parkgebühr.

Nach einer Pivotierung ergibt sich die gewünschte Datenstruktur, wie in der folgenden Tabelle gezeigt. Sie können diese Daten nun analysieren, indem Sie die Trends im Zeitverlauf betrachten, da sich alle Datumswerte in einer Spalte befinden.

Mitarbeiter
Datum
Parkgebühr

Christine

05.02.2020

10

Christine

06.02.2020

10

Christine

07.02.2020

10

Christine

08.02.2020

10

Christine

09.02.2020

10

Tristan

05.02.2020

10

Lily

05.02.2020

10

Lily

09.02.2020

10

Jamal

05.02.2020

10

Jamal

07.02.2020

10

Was ist eine Aufteilung?

Einfach ausgedrückt, wird bei einer Aufteilung eine Spalte, die mehrere Informationseinheiten enthält, in mehrere Spalten aufgeteilt, und zwar eine für jede einzelne Information.

Eine Aufteilung trennt Feldwerte mit Zeichenfolgen (Text) anhand eines Trennzeichens (z. B. Komma, Doppelpunkt oder Bindestrich, das sich zwischen verschiedenen Informationseinheiten innerhalb eines Feldwerts befindet). Aufteilungen sind nützlich, wenn Feldkomponenten eine Bedeutung haben, die Sie zur Analyse Ihrer Daten nutzen können.

Im folgenden Beispiel enthalten die Werte im Feld Fluggesellschaft sowohl den Namen als auch den zweistelligen Code der Fluggesellschaft. Der Doppelpunkt zwischen diesen beiden Informationseinheiten ist das Trennzeichen.

Fluggesellschaft

Lufthansa: LH

Eurowings: EW

Ryanair: FR

TUIfly: X3

Nach der Aufteilung befinden sich die Namen und Kürzel der Fluggesellschaften in verschiedenen Spalten der Tabelle. Jetzt ist es einfacher, diese Daten nach Kürzel der Fluggesellschaften zu analysieren.

Fluggesellschaft
Kürzel der Fluggesellschaft

Lufthansa

LH

Eurowings

EW

Ryanair

FR

TUIfly

X3

Sie kennen sich nun mit Merkmalen und der Organisation von Daten sowie den Optionen zum Neustrukturieren von Daten einschließlich Pivotieren und Aufteilen von Feldern aus.

Beantworten Sie die erste Frage des Quiz mithilfe der folgenden Tabelle.

Stadt US-Bundesstaat Q1 Q2 Q3 Q4

San Francisco

CA

25.465 USD

15.389 USD

19.268 USD

28.491 USD

New York

NY

42.543 USD

39.642 USD

41.687 USD

44.594 USD

Seattle

WA

38.756 USD

32.174 USD

33.452 USD

39.892 USD

Lernen Sie weiter kostenlos!
Registrieren Sie sich für einen Account, um fortzufahren.
Was ist für Sie drin?
  • Holen Sie sich personalisierte Empfehlungen für Ihre Karriereplanung
  • Erproben Sie Ihre Fähigkeiten mithilfe praktischer Aufgaben und Quizze
  • Verfolgen Sie Ihre Fortschritte nach und teilen Sie sie mit Arbeitgebern
  • Nutzen Sie Mentoren und Karrierechancen