Skip to main content
Rejoignez-nous lors de l'Ă©vĂ©nement TDX Ă  San Francisco ou sur Salesforce+ les 5 et 6 mars pour la confĂ©rence des dĂ©veloppeurs Ă  l'ère des agents IA. Inscrivez-vous dès maintenant.

Restructuration des données

Objectifs de formation

Une fois cette unitĂ© terminĂ©e, vous pourrez :

  • Identifier les possibilitĂ©s de restructuration des donnĂ©es
  • DĂ©crire l’utilitĂ© de permuter des donnĂ©es
  • DĂ©crire l’utilitĂ© de scinder des donnĂ©es

Introduction

Vous avez appris comment reconnaĂ®tre de « bonnes Â» donnĂ©es via l’identification des caractĂ©ristiques des donnĂ©es pertinentes et de haute qualitĂ©, et dĂ©couvert comment sont organisĂ©es les donnĂ©es bien structurĂ©es. Toutefois, que devez-vous faire si vos donnĂ©es ne sont pas correctement structurĂ©es ? Dans cette unitĂ©, vous dĂ©couvrirez plusieurs approches relatives Ă  la restructuration des donnĂ©es, impliquant notamment l’utilisation de permutations et la scission de variables (champs).

Possibilités de restructuration des données

Voici les possibilitĂ©s de restructuration des donnĂ©es qui s’offrent Ă  vous : 

  • Modification de la base de donnĂ©es sous-jacente.
  • Utilisation d’un langage de programmation, tel que R ou Python.
  • Utilisation d’outils (par exemple pour scinder ou permuter les donnĂ©es) inclus au sein de la plate-forme Tableau, parmi lesquels Tableau Prep Builder ou Tableau Desktop.
  • Utilisation d’autres outils ETL (permettant d’extraire, de transformer et de charger des donnĂ©es).

Dans certains cas, ces opérations consistent à modifier les métadonnées qui décrivent les données, au lieu de modifier ces dernières en tant que telles. Les métadonnées peuvent inclure des informations comme des calculs, des champs renommés et des informations de mise en forme par défaut. Les métadonnées peuvent également comporter les modifications qui ont été apportées à la structure des données.

Révision du concept de données bien structurées

Souvenez-vous de ce que vous avez appris plus tôt dans ce module sur la manière dont les données bien structurées sont organisées.

  • Chaque variable est dans une colonne munie d’un en-tĂªte de colonne.
  • Chaque observation diffĂ©rente de cette variable se trouve dans une ligne distincte.

Nous avons dĂ©jĂ  examinĂ© ce tableau simple. Ces donnĂ©es sont bien structurĂ©es. Les variables sont Fournisseur, Ville et État, et chacune d’entre elles dispose de sa colonne munie d’un en-tĂªte. Chaque ligne liste les observations (ou valeurs) de ces variables (champs), Ă  savoir le nom du prestataire et sa localisation (ville et pays).

Fournisseur
Ville
État

Polly’s Lollipops

Preston

Washington

Lucy’s Lollies

Lansing

Michigan

Carlo Callazo’s Candy

Cambridge

Massachusetts

Ming’s Minty Meringues

Madison

Wisconsin

Si vos donnĂ©es ne sont pas bien structurĂ©es, vous devez effectuer des tĂ¢ches de prĂ©paration des donnĂ©es afin que le jeu de donnĂ©es soit utile dans le cadre des analyses.

Voici quelques tĂ¢ches courantes qui permettent de transformer des donnĂ©es mal structurĂ©es en donnĂ©es bien structurĂ©es :

  • Permuter des colonnes en lignes et inversement.
  • Scinder des champs.

Présentation des permutations

Une permutation transforme des colonnes en lignes, et inversement dans certains cas.

Vous pouvez utiliser une permutation dans les jeux de donnĂ©es d’une « largeur Â» importante, lorsque les informations sont consignĂ©es dans de nombreuses colonnes et que ces colonnes contiennent des informations similaires. Cette structure peut s’avĂ©rer adaptĂ©e pour produire un rapport destinĂ© aux utilisateurs, mais n’est pas forcĂ©ment très utile dans le cadre des analyses. Par exemple, Tableau Desktop analyse plus efficacement les donnĂ©es dans une structure de tableau dont la largeur est rĂ©duite.

Prenons pour exemple ce tableau qui répertorie les frais de parking payés par des employés. Il contient une ligne pour chaque employé, avec un champ (colonne) pour chaque date (05/02/2020, 06/02/2020, etc.).

Employé
05/02/2020
jeudi 6 février 2020
vendredi 7 février 2020
samedi 8 février 2020
dimanche 9 février 2020

Christine

10

10

10

10

10

Tristan

10





Lily

10




10

Jamal

10


10



Si vous importez cette structure dans un outil comme Tableau Desktop, vous obtenez un champ pour chaque colonne. Ce tableau contient cinq champs, qui reprĂ©sentent tous les frais de parking payĂ©s pour le jour concernĂ©. Comme les donnĂ©es sont stockĂ©es dans des champs diffĂ©rents, il est difficile d’effectuer une analyse dans le temps. Les champs (variables) EmployĂ©, Date et Frais de parking devraient apparaĂ®tre dans des colonnes distinctes, chacune munie d’un en-tĂªte. Chaque ligne devrait lister les valeurs (observations des variables), Ă  savoir le nom de l’employĂ©, la date et le montant payĂ©.

Après une permutation, vous obtenez la structure souhaitĂ©e, comme dans le tableau suivant. Vous pouvez maintenant analyser ces donnĂ©es en examinant les tendances dans le temps, car toutes les valeurs de date se trouvent dans la mĂªme colonne.

Employé
Date
Frais de parking

Christine

05/02/2020

10

Christine

06/02/2020

10

Christine

07/02/2020

10

Christine

08/02/2020

10

Christine

09/02/2020

10

Tristan

05/02/2020

10

Lily

05/02/2020

10

Lily

09/02/2020

10

Jamal

05/02/2020

10

Jamal

07/02/2020

10

Présentation des scissions

En termes simples, une scission sépare une colonne contenant plusieurs informations en plusieurs colonnes, une pour chaque information.

Une scission sépare des chaînes de texte en fonction d’un séparateur (un caractère comme une virgule, un signe deux-points ou un trait d’union, situé entre deux informations distinctes au sein d’une valeur de champ). Les scissions sont utiles lorsque les composants d’un champ ont une signification permettant d’effectuer des analyses.

Dans l’exemple suivant, les valeurs du champ Compagnie aĂ©rienne contiennent le nom de la compagnie aĂ©rienne ainsi qu’un code de compagnie aĂ©rienne Ă  deux lettres. Le signe deux-points sĂ©parant ces deux informations joue le rĂ´le de caractère de dĂ©limitation.

Compagnie aérienne

American Airlines : AA

Delta Airlines : DL

JetBlue Airways : B6

United Airlines : UA

Après la scission, le nom et le code de chaque compagnie se trouvent dans des colonnes distinctes. Il est maintenant plus facile d’analyser ces données en fonction du code de compagnie aérienne.

Compagnie aérienne
Code de compagnie aérienne

American Airlines

AA

Delta Airlines

DL

JetBlue Airways

B6

United Airlines

UA

Vous avez maintenant une meilleure compréhension des caractéristiques et de l’organisation des données, et connaissez désormais plusieurs manières de restructurer les données, notamment en scindant et en permutant des champs.

Utilisez le tableau ci-après pour répondre à la première question du quiz.

Ville État Q1 Q2 Q3 Q4

San Francisco

Californie

25 465$

15 389$

19 268$

28 491$

New York

New York

42 543$

39 642$

41 687$

44 594$

Seattle

Washington

38 756$

32 174$

33 452$

39 892$

Partagez vos commentaires sur Trailhead dans l'aide Salesforce.

Nous aimerions connaître votre expérience avec Trailhead. Vous pouvez désormais accéder au nouveau formulaire de commentaires à tout moment depuis le site d'aide Salesforce.

En savoir plus Continuer Ă  partager vos commentaires