Skip to main content

Restructuration des données

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

  • Identifier les possibilités de restructuration des données
  • Décrire l’utilité de permuter des données
  • Décrire l’utilité de scinder des données

Introduction

Vous avez appris comment reconnaître de « bonnes » données via l’identification des caractéristiques des données pertinentes et de haute qualité, et découvert comment sont organisées les données bien structurées. Toutefois, que devez-vous faire si vos données ne sont pas correctement structurées ? Dans cette unité, vous découvrirez plusieurs approches relatives à la restructuration des données, impliquant notamment l’utilisation de permutations et la scission de variables (champs).

Possibilités de restructuration des données

Voici les possibilités de restructuration des données qui s’offrent à vous : 

  • Modification de la base de données sous-jacente.
  • Utilisation d’un langage de programmation, tel que R ou Python.
  • Utilisation d’outils (par exemple pour scinder ou permuter les données) inclus au sein de la plate-forme Tableau, parmi lesquels Tableau Prep Builder ou Tableau Desktop.
  • Utilisation d’autres outils ETL (permettant d’extraire, de transformer et de charger des données).

Dans certains cas, ces opérations consistent à modifier les métadonnées qui décrivent les données, au lieu de modifier ces dernières en tant que telles. Les métadonnées peuvent inclure des informations comme des calculs, des champs renommés et des informations de mise en forme par défaut. Les métadonnées peuvent également comporter les modifications qui ont été apportées à la structure des données.

Révision du concept de données bien structurées

Souvenez-vous de ce que vous avez appris plus tôt dans ce module sur la manière dont les données bien structurées sont organisées.

  • Chaque variable est dans une colonne munie d’un en-tête de colonne.
  • Chaque observation différente de cette variable se trouve dans une ligne distincte.

Nous avons déjà examiné ce tableau simple. Ces données sont bien structurées. Les variables sont Fournisseur, Ville et État, et chacune d’entre elles dispose de sa colonne munie d’un en-tête. Chaque ligne liste les observations (ou valeurs) de ces variables (champs), à savoir le nom du prestataire et sa localisation (ville et pays).

Fournisseur
Ville
État

Polly’s Lollipops

Preston

Washington

Lucy’s Lollies

Lansing

Michigan

Carlo Callazo’s Candy

Cambridge

Massachusetts

Ming’s Minty Meringues

Madison

Wisconsin

Si vos données ne sont pas bien structurées, vous devez effectuer des tâches de préparation des données afin que le jeu de données soit utile dans le cadre des analyses.

Voici quelques tâches courantes qui permettent de transformer des données mal structurées en données bien structurées :

  • Permuter des colonnes en lignes et inversement.
  • Scinder des champs.

Présentation des permutations

Une permutation transforme des colonnes en lignes, et inversement dans certains cas.

Vous pouvez utiliser une permutation dans les jeux de données d’une « largeur » importante, lorsque les informations sont consignées dans de nombreuses colonnes et que ces colonnes contiennent des informations similaires. Cette structure peut s’avérer adaptée pour produire un rapport destiné aux utilisateurs, mais n’est pas forcément très utile dans le cadre des analyses. Par exemple, Tableau Desktop analyse plus efficacement les données dans une structure de tableau dont la largeur est réduite.

Prenons pour exemple ce tableau qui répertorie les frais de parking payés par des employés. Il contient une ligne pour chaque employé, avec un champ (colonne) pour chaque date (05/02/2020, 06/02/2020, etc.).

Employé
05/02/2020
jeudi 6 février 2020
vendredi 7 février 2020
samedi 8 février 2020
dimanche 9 février 2020

Christine

10

10

10

10

10

Tristan

10





Lily

10




10

Jamal

10


10



Si vous importez cette structure dans un outil comme Tableau Desktop, vous obtenez un champ pour chaque colonne. Ce tableau contient cinq champs, qui représentent tous les frais de parking payés pour le jour concerné. Comme les données sont stockées dans des champs différents, il est difficile d’effectuer une analyse dans le temps. Les champs (variables) Employé, Date et Frais de parking devraient apparaître dans des colonnes distinctes, chacune munie d’un en-tête. Chaque ligne devrait lister les valeurs (observations des variables), à savoir le nom de l’employé, la date et le montant payé.

Après une permutation, vous obtenez la structure souhaitée, comme dans le tableau suivant. Vous pouvez maintenant analyser ces données en examinant les tendances dans le temps, car toutes les valeurs de date se trouvent dans la même colonne.

Employé
Date
Frais de parking

Christine

05/02/2020

10

Christine

06/02/2020

10

Christine

07/02/2020

10

Christine

08/02/2020

10

Christine

09/02/2020

10

Tristan

05/02/2020

10

Lily

05/02/2020

10

Lily

09/02/2020

10

Jamal

05/02/2020

10

Jamal

07/02/2020

10

Présentation des scissions

En termes simples, une scission sépare une colonne contenant plusieurs informations en plusieurs colonnes, une pour chaque information.

Une scission sépare des chaînes de texte en fonction d’un séparateur (un caractère comme une virgule, un signe deux-points ou un trait d’union, situé entre deux informations distinctes au sein d’une valeur de champ). Les scissions sont utiles lorsque les composants d’un champ ont une signification permettant d’effectuer des analyses.

Dans l’exemple suivant, les valeurs du champ Compagnie aérienne contiennent le nom de la compagnie aérienne ainsi qu’un code de compagnie aérienne à deux lettres. Le signe deux-points séparant ces deux informations joue le rôle de caractère de délimitation.

Compagnie aérienne

American Airlines : AA

Delta Airlines : DL

JetBlue Airways : B6

United Airlines : UA

Après la scission, le nom et le code de chaque compagnie se trouvent dans des colonnes distinctes. Il est maintenant plus facile d’analyser ces données en fonction du code de compagnie aérienne.

Compagnie aérienne
Code de compagnie aérienne

American Airlines

AA

Delta Airlines

DL

JetBlue Airways

B6

United Airlines

UA

Vous avez maintenant une meilleure compréhension des caractéristiques et de l’organisation des données, et connaissez désormais plusieurs manières de restructurer les données, notamment en scindant et en permutant des champs.

Utilisez le tableau ci-après pour répondre à la première question du quiz.

Ville État Q1 Q2 Q3 Q4

San Francisco

Californie

25 465$

15 389$

19 268$

28 491$

New York

New York

42 543$

39 642$

41 687$

44 594$

Seattle

Washington

38 756$

32 174$

33 452$

39 892$

Partagez vos commentaires sur Trailhead dans l'aide Salesforce.

Nous aimerions connaître votre expérience avec Trailhead. Vous pouvez désormais accéder au nouveau formulaire de commentaires à tout moment depuis le site d'aide Salesforce.

En savoir plus Continuer à partager vos commentaires