Restructuration des données
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Identifier les possibilités de restructuration des données
- Décrire l’utilité de permuter des données
- Décrire l’utilité de scinder des données
Introduction
Vous avez appris comment reconnaître de « bonnes » données via l’identification des caractéristiques des données pertinentes et de haute qualité, et découvert comment sont organisées les données bien structurées. Toutefois, que devez-vous faire si vos données ne sont pas correctement structurées ? Dans cette unité, vous découvrirez plusieurs approches relatives à la restructuration des données, impliquant notamment l’utilisation de permutations et la scission de variables (champs).
Possibilités de restructuration des données
Voici les possibilités de restructuration des données qui s’offrent à vous :
- Modification de la base de données sous-jacente.
- Utilisation d’un langage de programmation, tel que R ou Python.
- Utilisation d’outils (par exemple pour scinder ou permuter les données) inclus au sein de la plate-forme Tableau, parmi lesquels Tableau Prep Builder ou Tableau Desktop.
- Utilisation d’autres outils ETL (permettant d’extraire, de transformer et de charger des données).
Dans certains cas, ces opérations consistent à modifier les métadonnées qui décrivent les données, au lieu de modifier ces dernières en tant que telles. Les métadonnées peuvent inclure des informations comme des calculs, des champs renommés et des informations de mise en forme par défaut. Les métadonnées peuvent également comporter les modifications qui ont été apportées à la structure des données.
Révision du concept de données bien structurées
Souvenez-vous de ce que vous avez appris plus tôt dans ce module sur la manière dont les données bien structurées sont organisées.
- Chaque variable est dans une colonne munie d’un en-tĂªte de colonne.
- Chaque observation différente de cette variable se trouve dans une ligne distincte.
Nous avons dĂ©jĂ examinĂ© ce tableau simple. Ces donnĂ©es sont bien structurĂ©es. Les variables sont Fournisseur, Ville et État, et chacune d’entre elles dispose de sa colonne munie d’un en-tĂªte. Chaque ligne liste les observations (ou valeurs) de ces variables (champs), Ă savoir le nom du prestataire et sa localisation (ville et pays).
Fournisseur |
Ville |
État |
---|---|---|
Polly’s Lollipops |
Preston |
Washington |
Lucy’s Lollies |
Lansing |
Michigan |
Carlo Callazo’s Candy |
Cambridge |
Massachusetts |
Ming’s Minty Meringues |
Madison |
Wisconsin |
Si vos donnĂ©es ne sont pas bien structurĂ©es, vous devez effectuer des tĂ¢ches de prĂ©paration des donnĂ©es afin que le jeu de donnĂ©es soit utile dans le cadre des analyses.
Voici quelques tĂ¢ches courantes qui permettent de transformer des donnĂ©es mal structurĂ©es en donnĂ©es bien structurĂ©es :
- Permuter des colonnes en lignes et inversement.
- Scinder des champs.
Présentation des permutations
Une permutation transforme des colonnes en lignes, et inversement dans certains cas.
Vous pouvez utiliser une permutation dans les jeux de données d’une « largeur » importante, lorsque les informations sont consignées dans de nombreuses colonnes et que ces colonnes contiennent des informations similaires. Cette structure peut s’avérer adaptée pour produire un rapport destiné aux utilisateurs, mais n’est pas forcément très utile dans le cadre des analyses. Par exemple, Tableau Desktop analyse plus efficacement les données dans une structure de tableau dont la largeur est réduite.
Prenons pour exemple ce tableau qui répertorie les frais de parking payés par des employés. Il contient une ligne pour chaque employé, avec un champ (colonne) pour chaque date (05/02/2020, 06/02/2020, etc.).
Employé |
05/02/2020 |
jeudi 6 février 2020 |
vendredi 7 février 2020 |
samedi 8 février 2020 |
dimanche 9 février 2020 |
---|---|---|---|---|---|
Christine |
10 |
10 |
10 |
10 |
10 |
Tristan |
10 |
||||
Lily |
10 |
10 |
|||
Jamal |
10 |
10 |
Si vous importez cette structure dans un outil comme Tableau Desktop, vous obtenez un champ pour chaque colonne. Ce tableau contient cinq champs, qui reprĂ©sentent tous les frais de parking payĂ©s pour le jour concernĂ©. Comme les donnĂ©es sont stockĂ©es dans des champs diffĂ©rents, il est difficile d’effectuer une analyse dans le temps. Les champs (variables) EmployĂ©, Date et Frais de parking devraient apparaĂ®tre dans des colonnes distinctes, chacune munie d’un en-tĂªte. Chaque ligne devrait lister les valeurs (observations des variables), Ă savoir le nom de l’employĂ©, la date et le montant payĂ©.
Après une permutation, vous obtenez la structure souhaitĂ©e, comme dans le tableau suivant. Vous pouvez maintenant analyser ces donnĂ©es en examinant les tendances dans le temps, car toutes les valeurs de date se trouvent dans la mĂªme colonne.
Employé |
Date |
Frais de parking |
---|---|---|
Christine |
05/02/2020 |
10 |
Christine |
06/02/2020 |
10 |
Christine |
07/02/2020 |
10 |
Christine |
08/02/2020 |
10 |
Christine |
09/02/2020 |
10 |
Tristan |
05/02/2020 |
10 |
Lily |
05/02/2020 |
10 |
Lily |
09/02/2020 |
10 |
Jamal |
05/02/2020 |
10 |
Jamal |
07/02/2020 |
10 |
Présentation des scissions
En termes simples, une scission sépare une colonne contenant plusieurs informations en plusieurs colonnes, une pour chaque information.
Une scission sépare des chaînes de texte en fonction d’un séparateur (un caractère comme une virgule, un signe deux-points ou un trait d’union, situé entre deux informations distinctes au sein d’une valeur de champ). Les scissions sont utiles lorsque les composants d’un champ ont une signification permettant d’effectuer des analyses.
Dans l’exemple suivant, les valeurs du champ Compagnie aérienne contiennent le nom de la compagnie aérienne ainsi qu’un code de compagnie aérienne à deux lettres. Le signe deux-points séparant ces deux informations joue le rôle de caractère de délimitation.
Compagnie aérienne |
---|
American Airlines : AA |
Delta Airlines : DL |
JetBlue Airways : B6 |
United Airlines : UA |
Après la scission, le nom et le code de chaque compagnie se trouvent dans des colonnes distinctes. Il est maintenant plus facile d’analyser ces données en fonction du code de compagnie aérienne.
Compagnie aérienne |
Code de compagnie aérienne |
---|---|
American Airlines |
AA |
Delta Airlines |
DL |
JetBlue Airways |
B6 |
United Airlines |
UA |
Vous avez maintenant une meilleure compréhension des caractéristiques et de l’organisation des données, et connaissez désormais plusieurs manières de restructurer les données, notamment en scindant et en permutant des champs.
Utilisez le tableau ci-après pour répondre à la première question du quiz.
Ville | État | Q1 | Q2 | Q3 | Q4 |
---|---|---|---|---|---|
San Francisco |
Californie |
25 465$ |
15 389$ |
19 268$ |
28 491$ |
New York |
New York |
42 543$ |
39 642$ |
41 687$ |
44 594$ |
Seattle |
Washington |
38 756$ |
32 174$ |
33 452$ |
39 892$ |