Erste Schritte mit Batch-Datentransformationen in Data Cloud
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Beschreiben von Batch-Datentransformationen und ihrer Verwendung
- Identifizieren der verschiedenen Arten von Datentransformationsknoten
- Erläutern, wie man eine Batch-Datentransformation erstellt
Einführung in Batch-Datentransformationen
In Data Cloud werden Daten über einen Datenstrom eingespeist und in einem Data-Lake-Objekt (DLO) gespeichert. Ein DLO ist der Speicherbehälter für Daten, die in die Data Cloud aufgenommen werden. Eine Datentransformation ermöglicht Ihnen, auf Daten in einem oder mehreren DLOs zuzugreifen und sie zu transformieren, um Ihr eigenes Datenset zu erstellen.
Wann sollte man eine Batch-Datentransformationen verwenden?
Im Gegensatz zu einer Streaming-Datentransformation, die kontinuierlich abläuft, wird eine Batch-Datentransformation nach einem Zeitplan ausgeführt. Batch-Datentransformationen haben einen größeren Funktionsumfang als Streaming-Datentransformationen, die auf einer SQL-Anweisung basieren. Batch-Datentransformationen bieten einen umfangreichen visuellen Editor. Mit diesem Editor können Sie Daten aus mehreren DLOs kombinieren, Funktionen zur Erstellung berechneter Felder verwenden und Daten an mehrere DLOs ausgeben.
Verwenden Sie eine Batch-Datentransformation, wenn Sie komplexe Datentransformationen durchführen oder die Daten nach einem bestimmten Zeitplan aktualisieren müssen. In einer Batch-Datentransformation können Sie Daten verknüpfen, aggregieren und anhängen. Außerdem können Sie Formeln und Filter verwenden.
Wie funktioniert eine Batch-Datentransformation?
Im visuellen Editor platzieren Sie Knoten durch Ziehen und Ablegen, um die benötigten Daten zu erstellen. Jeder Knoten steht für einen Schritt im Prozess. Die Knoten stellen die Quell- und Zieldaten sowie die verschiedenen Vorgänge dar, die Sie mit diesen Daten durchführen.
Beim Erstellen einer Batch-Datentransformation können Sie die verschiedenen Knotentypen verwenden, um genau die Daten zu extrahieren, die Sie benötigen. Dies sind die verschiedenen zur Auswahl stehenden Knotentypen und ihre Funktionen:
Knotentyp |
Funktion |
---|---|
Aggregate (Aggregation) |
Führt ein Rollup der Daten auf eine höhere Granularitätsebene durch und verwendet dafür folgende Funktionen: Average, Count, Maximum, Minimum, Stddevp, Stddev, Sum, Unique, Varp und Var. |
Append (Anhängen) |
Kombiniert Zeilen aus mehreren Datensets |
Filter |
Entfernt Zeilen, die Sie in Ihren Zieldaten nicht benötigen |
Input (Eingabe) |
Enthält Quelldaten in einem DLO |
Join (Verknüpfen) |
Verknüpft zwei Eingabeknoten per Nachschlagevorgang oder Verknüpfung. Jeder Eingabeknoten muss ein Schlüsselfeld enthalten. Der Eingabeknoten mit Kundendaten und der Knoten mit Ticketverkäufen enthalten beispielsweise beide ein Feld "Customer-ID" (Kunden-ID). |
Output (Ausgabe) |
Enthält die umgewandelten Daten in einem DLO |
Transform (Umwandeln) |
Verändert Daten mithilfe von Funktionen. Mit diesem Knoten können Sie Werte berechnen, Zeichenfolgenwerte ändern, Datumsangaben formatieren, Datenattribute bearbeiten, Spalten entfernen usw. |
Update (Aktualisieren) |
Tauscht Spaltenwerte gegen Daten aus einer anderen Datenquelle aus, wenn die Schlüsselpaare übereinstimmen |
Erstellen einer Batch-Datentransformation
Da Sie jetzt wissen, was eine Batch-Datentransformation ist, sehen wir uns nun an, wie sie in der Praxis funktioniert. Nehmen wir an, Sie arbeiten bei einem Unternehmen für Sportveranstaltungen, das Eintrittskarten für Spiele verkauft. Außerdem verkauft das Unternehmen Fanartikel für jedes Spiel. Sie möchten eine Liste von VIP-Kunden erstellen, die auf den Karten- und Warenkäufen der Kunden basiert.
Bevor Sie sich an die Erstellung einer Transformation machen, erstellen Sie zunächst ein DLO, das die umgewandelten Daten enthalten wird. Das Ziel-DLO bei dieser Transformation heißt "VIP Customers" und gehört zur Kategorie "Profile" (Profil), da es sich bei den Daten um eine Liste von Kunden handelt. Das DLO heißt zwar "VIP Customers", in der Transformation haben wir ihm jedoch den aussagekräftigeren Namen "Update VIP Customers DLO" gegeben.
- Sie sind jetzt bereit, die Datentransformation zu erstellen. Wenn Sie "Batch Data Transform" (Batch-Datentransformation) auswählen, wird ein leerer Bereich geöffnet. Zuerst fügen Sie Ihre erste Datenquelle hinzu: Customers DLO (Profil).
- Nach den Kundendaten fügen Sie nun zwei Knoten vom Typ "Join" (Verknüpfen) hinzu: einen zu "Merchandise Purchase DLO" und einen zu "Ticket Purchase DLO". Diese DLOs enthalten beide Interaktionsdaten und stehen über die Kunden-ID miteinander in Beziehung. Am Ende verfügen Sie über ein denormalisiertes Datenset, das Kunden und die zugehörigen Daten zu ihren Ticket- und Warenkäufen enthält.
- Fügen Sie einen Knoten vom Typ "Transform" (Umwandeln) hinzu, um VIP-Kunden zu identifizieren. Dieser Knoten führt eine Reihe von Vorgängen durch: Er berechnet den Kundenertragswert (Customer Lifetime Value), indem er den Ticketverkaufsbetrag und den Warenwert addiert, er entfernt nicht benötigte Spalten, er berechnet den durchschnittlichen Kundenertragswert und er stellt fest, ob der Kunde ein VIP ist.
- Fügen Sie einen Knoten vom Typ "Filter" hinzu, um die VIP-Kunden zu extrahieren.
- Fügen Sie einen Knoten vom Typ "Transform" (Umwandeln) hinzu, um Spalten zu entfernen, die Sie im finalen Datenset nicht benötigen.
- Fügen Sie einen Knoten vom Typ "Output" (Ausgabe) hinzu, um die umgewandelten Daten zu speichern. Der Ausgabeknoten ist das Ziel-DLO, das Sie zu Beginn dieses Prozesses erstellt haben.
- Speichern Sie die Transformation und führen Sie sie aus.
Vorschau auf die Ergebnisse
Nach der erfolgreichen Beendigung der Datentransformation öffnen Sie den Data Explorer (Daten-Explorer), um das DLO "VIP Customers" zu öffnen und die Daten zu prüfen.