Restructuration des données
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Identifier les possibilités de restructuration des données
- Décrire l’utilité de permuter des données
- Décrire l’utilité de scinder des données
Introduction
Vous avez appris comment reconnaître de « bonnes » données via l’identification des caractéristiques des données pertinentes et de haute qualité, et découvert comment sont organisées les données bien structurées. Toutefois, que devez-vous faire si vos données ne sont pas correctement structurées ? Dans cette unité, vous découvrirez plusieurs approches relatives à la restructuration des données, impliquant notamment l’utilisation de permutations et la scission de variables (champs).
Possibilités de restructuration des données
Voici les possibilités de restructuration des données qui s’offrent à vous :
- Modification de la base de données sous-jacente.
- Utilisation d’un langage de programmation, tel que R ou Python.
- Utilisation d’outils (par exemple pour scinder ou permuter les données) inclus au sein de la plate-forme Tableau, parmi lesquels Tableau Prep Builder ou Tableau Desktop.
- Utilisation d’autres outils ETL (permettant d’extraire, de transformer et de charger des données).
Dans certains cas, ces opérations consistent à modifier les métadonnées qui décrivent les données, au lieu de modifier ces dernières en tant que telles. Les métadonnées peuvent inclure des informations comme des calculs, des champs renommés et des informations de mise en forme par défaut. Les métadonnées peuvent également comporter les modifications qui ont été apportées à la structure des données.
Révision du concept de données bien structurées
Souvenez-vous de ce que vous avez appris plus tôt dans ce module sur la manière dont les données bien structurées sont organisées.
- Chaque variable est dans une colonne munie d’un en-tête de colonne.
- Chaque observation différente de cette variable se trouve dans une ligne distincte.
Nous avons déjà examiné ce tableau simple. Ces données sont bien structurées. Les variables sont Fournisseur, Ville et État, et chacune d’entre elles dispose de sa colonne munie d’un en-tête. Chaque ligne liste les observations (ou valeurs) de ces variables (champs), à savoir le nom du prestataire et sa localisation (ville et pays).
Fournisseur |
Ville |
État |
---|---|---|
Polly’s Lollipops |
Preston |
Washington |
Lucy’s Lollies |
Lansing |
Michigan |
Carlo Callazo’s Candy |
Cambridge |
Massachusetts |
Ming’s Minty Meringues |
Madison |
Wisconsin |
Si vos données ne sont pas bien structurées, vous devez effectuer des tâches de préparation des données afin que le jeu de données soit utile dans le cadre des analyses.
Voici quelques tâches courantes qui permettent de transformer des données mal structurées en données bien structurées :
- Permuter des colonnes en lignes et inversement.
- Scinder des champs.
Présentation des permutations
Une permutation transforme des colonnes en lignes, et inversement dans certains cas.
Vous pouvez utiliser une permutation dans les jeux de données d’une « largeur » importante, lorsque les informations sont consignées dans de nombreuses colonnes et que ces colonnes contiennent des informations similaires. Cette structure peut s’avérer adaptée pour produire un rapport destiné aux utilisateurs, mais n’est pas forcément très utile dans le cadre des analyses. Par exemple, Tableau Desktop analyse plus efficacement les données dans une structure de tableau dont la largeur est réduite.
Prenons pour exemple ce tableau qui répertorie les frais de parking payés par des employés. Il contient une ligne pour chaque employé, avec un champ (colonne) pour chaque date (05/02/2020, 06/02/2020, etc.).
Employé |
05/02/2020 |
jeudi 6 février 2020 |
vendredi 7 février 2020 |
samedi 8 février 2020 |
dimanche 9 février 2020 |
---|---|---|---|---|---|
Christine |
10 |
10 |
10 |
10 |
10 |
Tristan |
10 |
||||
Lily |
10 |
10 |
|||
Jamal |
10 |
10 |
Si vous importez cette structure dans un outil comme Tableau Desktop, vous obtenez un champ pour chaque colonne. Ce tableau contient cinq champs, qui représentent tous les frais de parking payés pour le jour concerné. Comme les données sont stockées dans des champs différents, il est difficile d’effectuer une analyse dans le temps. Les champs (variables) Employé, Date et Frais de parking devraient apparaître dans des colonnes distinctes, chacune munie d’un en-tête. Chaque ligne devrait lister les valeurs (observations des variables), à savoir le nom de l’employé, la date et le montant payé.
Après une permutation, vous obtenez la structure souhaitée, comme dans le tableau suivant. Vous pouvez maintenant analyser ces données en examinant les tendances dans le temps, car toutes les valeurs de date se trouvent dans la même colonne.
Employé |
Date |
Frais de parking |
---|---|---|
Christine |
05/02/2020 |
10 |
Christine |
06/02/2020 |
10 |
Christine |
07/02/2020 |
10 |
Christine |
08/02/2020 |
10 |
Christine |
09/02/2020 |
10 |
Tristan |
05/02/2020 |
10 |
Lily |
05/02/2020 |
10 |
Lily |
09/02/2020 |
10 |
Jamal |
05/02/2020 |
10 |
Jamal |
07/02/2020 |
10 |
Présentation des scissions
En termes simples, une scission sépare une colonne contenant plusieurs informations en plusieurs colonnes, une pour chaque information.
Une scission sépare des chaînes de texte en fonction d’un séparateur (un caractère comme une virgule, un signe deux-points ou un trait d’union, situé entre deux informations distinctes au sein d’une valeur de champ). Les scissions sont utiles lorsque les composants d’un champ ont une signification permettant d’effectuer des analyses.
Dans l’exemple suivant, les valeurs du champ Compagnie aérienne contiennent le nom de la compagnie aérienne ainsi qu’un code de compagnie aérienne à deux lettres. Le signe deux-points séparant ces deux informations joue le rôle de caractère de délimitation.
Compagnie aérienne |
---|
American Airlines : AA |
Delta Airlines : DL |
JetBlue Airways : B6 |
United Airlines : UA |
Après la scission, le nom et le code de chaque compagnie se trouvent dans des colonnes distinctes. Il est maintenant plus facile d’analyser ces données en fonction du code de compagnie aérienne.
Compagnie aérienne |
Code de compagnie aérienne |
---|---|
American Airlines |
AA |
Delta Airlines |
DL |
JetBlue Airways |
B6 |
United Airlines |
UA |
Vous avez maintenant une meilleure compréhension des caractéristiques et de l’organisation des données, et connaissez désormais plusieurs manières de restructurer les données, notamment en scindant et en permutant des champs.
Utilisez le tableau ci-après pour répondre à la première question du quiz.
Ville | État | Q1 | Q2 | Q3 | Q4 |
---|---|---|---|---|---|
San Francisco |
Californie |
25 465$ |
15 389$ |
19 268$ |
28 491$ |
New York |
New York |
42 543$ |
39 642$ |
41 687$ |
44 594$ |
Seattle |
Washington |
38 756$ |
32 174$ |
33 452$ |
39 892$ |