Découverte des transformations de données par lots dans Data Cloud
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Expliquer ce qu’est une transformation de données par lots et quand l’utiliser
- Identifier les différents types de nœuds de transformation de données
- Décrire comment créer une transformation de données par lots
Présentation des transformations de données par lots
Dans Data Cloud, les données arrivent via un flux de données et sont stockées dans un objet lac de données (DLO). Un objet lac de données est le conteneur de stockage des données intégrées dans Data Cloud. Une transformation de données vous permet d’accéder aux données d’un ou de plusieurs objets lac de données et de les transformer pour créer votre propre jeu de données.
Quand utiliser une transformation de données par lots
Contrairement à une transformation de données de streaming, qui s’exécute en continu, une transformation de données par lots s’exécute à intervalles planifiés. Les transformations de données par lots offrent davantage de fonctionnalités que les transformations de données de streaming, qui sont générées par une instruction SQL. Les transformations de données par lots offrent un éditeur avec une expérience visuelle riche. Cet éditeur vous permet de combiner des données de plusieurs objets lac de données, d’utiliser des fonctions pour créer des champs calculés et de renvoyer des données vers plusieurs objets lac de données.
Utilisez une transformation de données par lots lorsque vous devez effectuer des transformations de données complexes ou lorsque vous avez besoin de mettre à jour des données selon un calendrier précis. Une transformation de données par lots vous permet de joindre, d’agréger et d’ajouter des données. Vous pouvez également utiliser des formules et des filtres.
Comment utiliser une transformation de données par lots ?
Dans l’éditeur visuel, il vous suffit de faire glisser-déposer des nœuds pour créer les données dont vous avez besoin. Un nœud correspond à une étape de votre processus. Les nœuds représentent les données sources et cibles ainsi que les différentes opérations que vous effectuez sur ces données.
Lorsque vous créez une transformation de données par lots, vous pouvez utiliser les différents types de nœuds pour extraire précisément les données dont vous avez besoin. Voici les différents types de nœuds disponibles et leurs caractéristiques.
Type de nœud |
Fonction |
---|---|
Agrégation |
Cumule des données avec une granularité plus élevée à l’aide de ces fonctions : Average, Count, Maximum, Minimum, Stddevp, Stddev, Sum, Unique, Varp et Var. |
Ajouter |
Combine les lignes de plusieurs jeux de données. |
Filtre |
Supprime les lignes inutiles dans vos données cibles. |
Entrée |
Stocke les données sources dans un objet lac de données. |
Joindre |
Joint deux nœuds d’entrée via une recherche ou une jointure. Chaque nœud d’entrée doit être associé à un champ clé. Par exemple, le nœud d’entrée des données client et le nœud correspondant aux billets vendus sont tous deux associés à un champ Customer ID (ID de client). |
Sortie |
Stocke les données transformées dans un objet lac de données. |
Transformation |
Exploite les données grâce à des fonctions. Avec ce nœud, vous pouvez calculer des valeurs, modifier des valeurs de chaîne, mettre en forme des dates, modifier des attributs de données, retirer des colonnes, etc. |
Mettre à jour |
Remplace les valeurs de colonne par les données d’une autre source de données lorsque les paires de clés correspondent. |
Création d’une transformation de données par lots
Maintenant que vous savez ce qu’est une transformation de données par lots, regardons comment vous pouvez en créer. Imaginons que vous travailliez pour une agence d’événements sportifs qui vend des billets pour des matchs. L’entreprise vend également des produits dérivés pour chaque rencontre sportive. Vous voulez créer une liste de clients VIP à partir des billets des clients et des produits dérivés vendus.
Avant de créer une transformation, vous devez d’abord créer un objet lac de données pour stocker les données transformées. L’objet lac de données cible dans cette transformation est appelé VIP Customers (Clients VIP) et relève de la catégorie Profil, car ses données correspondent à une liste de clients. Bien que l’objet lac de données soit nommé VIP Customers (Clients VIP), nous lui avons donné un nom plus descriptif dans la transformation : Update VIP Customers DLO (Objet lac de données Mise à jour des clients VIP).
- Vous êtes prêts à créer la transformation de données. Lorsque vous sélectionnez Batch Data Transform, (Transformation de données par lots), une zone de dessin vierge s’ouvre. Commencez par ajouter votre première source de données : Customers DLO (Profile) (Objet lac de données Clients - Profil).
- Maintenant que vous avez récupéré vos données client, ajoutez un premier nœud Join (Joindre) à Merchandise Purchase DLO (Objet lac de données Produits dérivés vendus) et un deuxième à Ticket Purchase DLO (Objet lac de données Billets vendus). Ces objets lac de données stockent des données d’engagement et sont associés par un champ Customer ID (ID de client). Vous obtenez ainsi un jeu de données dénormalisées contenant les données des clients et les données correspondant aux billets et aux produits dérivés qu’ils ont achetés.
- Ajoutez un nœud de transformation pour identifier les clients VIP. Ce nœud effectue un certain nombre d’opérations : Il calcule la valeur vie client en additionnant le montant des ventes de billets et le montant des ventes de produits dérivés, supprime les colonnes inutiles, calcule la valeur vie client moyenne et identifie si le client est un VIP.
- Ajoutez un nœud de filtrage pour extraire les clients VIP.
- Ajoutez un nœud de transformation pour supprimer les colonnes dont vous n’avez pas besoin dans le jeu de données final.
- Ajoutez un nœud de sortie pour y stocker les données transformées. Le nœud de sortie est l’objet lac de données cible que vous avez créé au début de cet exercice.
- Enregistrez et exécutez la transformation.
Aperçu des résultats
Une fois la transformation terminée, accédez à Data Explorer (Explorateur de données) pour ouvrir l’objet VIP Customers DLO (Objet lac de données Clients VIP) et vérifier ses données.