Introduzione alle trasformazioni di dati in batch in Data Cloud
Obiettivi di apprendimento
Al completamento di questa unità, sarai in grado di:
- Descrivere le trasformazioni di dati in batch e quando utilizzarle.
- Identificare i diversi tipi di nodi per la trasformazione di dati.
- Descrivere come creare una trasformazione di dati in batch.
Introduzione alle trasformazioni di dati in batch
In Data Cloud l'importazione dei dati avviene attraverso uno stream di dati e questi ultimi risiedono in un oggetto data lake (DLO, Data Lake Object). Un DLO è il contenitore di archiviazione per i dati importati in Data Cloud. Una trasformazione di dati consente di accedere ai dati presenti in uno o più DLO e di trasformarli per creare il proprio set di dati.
Quando utilizzare una trasformazione di dati in batch
A differenza delle trasformazioni di dati in streaming, che vengono eseguite in modo continuo, le trasformazioni di dati in batch vengono eseguite in base a una pianificazione. Le trasformazioni di dati in batch offrono un maggior numero di funzionalità rispetto a quelle in streaming, che sono basate su istruzioni SQL. Per le trasformazioni di dati in batch è disponibile un editor visivo completo che puoi utilizzare per combinare dati provenienti da più DLO e per utilizzare funzioni per la creazione di campi calcolati; inoltre, puoi inviare i dati a più DLO.
Puoi utilizzare le trasformazioni di dati in batch quando hai bisogno di eseguire trasformazioni di dati complesse oppure quando hai bisogno di eseguire aggiornamenti programmati dei dati. In una trasformazione di dati in batch poi eseguire join, aggregazioni e aggiunte in coda di dati e puoi utilizzare formule e filtri.
Come funziona una trasformazione di dati in batch
Per creare i dati di cui hai bisogno, puoi utilizzare l'editor visivo per trascinare i nodi. Ciascun nodo rappresenta una fase del processo. I nodi rappresentano i dati di origine e di destinazione e le diverse operazioni che è possibile eseguire su quei dati.
Quando crei una trasformazione di dati in batch, puoi usare i diversi tipi di nodi per estrarre i dati specifici di cui hai bisogno. Ecco i diversi tipi di nodi che puoi scegliere e la loro funzione.
Tipo di nodo |
Funzione |
---|---|
Aggregate (Aggrega) |
Esegue il roll up dei dati su un livello di dettaglio più alto utilizzando le seguenti funzioni: Average, Count, Maximum, Minimum, Stddevp, Stddev, Sum, Unique, Varp e Var. |
Append (Aggiungi in coda) |
Combina righe da più set di dati. |
Filter (Filtro) |
Rimuove le righe non necessarie dai dati di destinazione. |
Input |
Contiene i dati di origine presenti in un DLO. |
Join (Unisci) |
Unisce due nodi di input attraverso una ricerca o un join. In ciascun nodo di input deve essere presente un campo chiave. Ad esempio, il nodo di input dei dati dei clienti e il nodo delle vendite dei biglietti hanno entrambi un campo associato all'ID cliente. |
Output |
Contiene i dati trasformati in un DLO. |
Transform (Trasforma) |
Manipola i dati attraverso l'utilizzo di funzioni. Questo nodo consente di calcolare valori, modificare valori stringa, formattare date, modificare attributi dei dati, eliminare colonne e così via. |
Update (Aggiorna) |
Sostituisce i valori di colonna con i dati provenienti da un'altra origine di dati quando le coppie di chiavi corrispondono. |
Creare una trasformazione di dati in batch
Ora che sai cos'è una trasformazione di dati in batch, vediamo come funziona nel mondo reale. Immagina di lavorare in un'azienda che organizza eventi sportivi e vende biglietti per le partite. L'azienda si occupa anche della vendita di articoli promozionali per ciascuna partita. Vuoi creare un elenco di clienti VIP in base ai biglietti e agli eventuali articoli promozionali acquistati.
Prima di iniziare a creare la trasformazione, devi creare il DLO che conterrà i dati trasformati. Il DLO di destinazione di questa trasformazione è denominato VIP Customers (Clienti VIP) e la sua categoria è Profile (Profilo), perché i dati rappresentano un elenco di clienti. Anche se il nome del DLO è VIP Customers (Clienti VIP), nella trasformazione abbiamo adottato il nome più descrittivo Update VIP Customers (Aggiorna Clienti VIP).
- Ora puoi procedere con la creazione della trasformazione dei dati. Quando selezioni Batch Data Transform (Trasformazione dati batch), si apre un'area di disegno vuota. Inizia con l'aggiunta della prima origine dati: Customers DLO (Profile) (DLO Clienti (Profilo)).
- Una volta aggiunti i dati dei clienti, aggiungi due nodi Join (Unisci): uno per il DLO Merchandise Purchase (Acquisti di articoli promozionali) e un altro per il DLO Ticket Purchase (Acquisti di biglietti). Entrambi questi DLO contengono dati relativi a interazioni e sono in relazione tra loro attraverso il campo Customer ID (ID cliente). Il risultato è un set di dati denormalizzato che contiene i clienti e gli acquisti di biglietti e articoli promozionali correlati.
- Aggiungi un nodo Transform (Trasforma) per identificare i clienti VIP. Questo nodo esegue diverse operazioni: calcola il valore durata del cliente aggiungendo l'ammontare delle vendite di biglietti e quello delle vendite di articoli promozionali; elimina le colonne non necessarie; calcola il valore durata medio dei clienti e determina se un cliente può essere definito VIP.
- Aggiungi un nodo Filter (filtro) per estrarre i clienti VIP.
- Aggiungi un nodo Transform (Trasforma) per eliminare le colonne di cui non hai bisogno dal set di dati risultante.
- Aggiungi un nodo Output che dovrà contenere i dati trasformati. Il nodo Output è il DLO di destinazione che hai creato all'inizio del processo.
- Salva la trasformazione ed eseguila.
Visualizzare l'anteprima dei risultati
Una volta che la trasformazione è completa, vai in Data Explorer (Explorer dati) per aprire il DLO VIP Customers (Clienti VIP) ed esamina i dati.