Découverte de l’organisation des données
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Décrire de quelle manière les données bien structurées sont organisées
- Distinguer les données bien structurées de celles mal organisées
Introduction
Dans l’unité précédente, vous avez découvert certaines des caractéristiques des données utiles et de qualité. La structuration dimensionnelle et l’atomicité constituent deux caractéristiques qui se rapportent spécifiquement à l’organisation des données. Les données structurées de manière dimensionnelle sont classées en deux types : les dimensions (valeurs qualitatives) et les mesures (valeurs quantitatives). Tableau utilise cette structure organisationnelle pour interpréter les données. Les données atomiques sont d’une grande précision, ce qui vous permet de les analyser à différents niveaux de détail.
Lorsque les données sont organisées, elles sont plus faciles à analyser, car elles peuvent être examinées, résumées, consultées via des recherches et filtrées de différentes manières. Lorsque les données ne sont pas organisées, l’analyse que vous pouvez en faire est souvent limitée. Par exemple, si les données sont déjà résumées par mois, il n’est pas possible d’y examiner des tendances quotidiennes ou hebdomadaires.
Dans cette unité, vous apprendrez comment sont organisées des données bien structurées.
Organisation des données
Les données sont organisées en lignes et en colonnes.
- Les colonnes sont verticales, et chaque colonne représente une variable ou un champ différent. Le module Concepts de base de la data literacy définit une variable comme une mesure, propriété ou caractéristique d’un élément susceptible de varier ou d’évoluer. Dans Tableau, les variables sont appelées champs.
- Les lignes sont horizontales, et chacune d’entre elles représente une unité d’analyse. Sur la plate-forme Tableau, les unités d’analyse sont appelées valeurs.
Examinons un exemple. Créez un tableau concernant des membres de votre famille ou des amis avec des variables (ou champs) présentant leur nom, âge, taille et aliment préféré. Votre tableau ressemblera certainement à celui qui est ci-dessous.
Nom | Âge | Taille (mètres) | Aliment préféré |
---|---|---|---|
Aliya |
8 |
1,27 |
Crème glacée |
Miles |
12 |
1,60 |
Pizza aux olives |
Penny |
42 |
1,60 |
Maïs en épi |
Vince |
39 |
1,78 |
Pancakes |
Comme vous pouvez le voir, les variables (ou champs) sont organisées en colonnes : Nom, Âge, Taille et Aliment préféré. Chaque ligne représente une unité d’analyse (ou valeur). Ici, en lisant chaque ligne, vous pouvez déterminer le nom, l’âge, la taille et l’aliment préféré de chaque personne. Par exemple, Aliya a 8 ans, mesure 1,27 m et aime la crème glacée.
Organisation des « bonnes » données
Les « bonnes » données sont des données bien structurées qui sont organisées ainsi :
- Chaque variable (champ) est dans une colonne munie d’un en-tête de colonne.
- Chacune des observations différentes de cette variable (valeur) se trouve dans une ligne différente.
Par exemple, étudions ce tableau simple. Les variables (champs) sont Fournisseur, Ville et État, et chaque variable dispose de sa colonne munie d’un en-tête. Chaque ligne liste les observations de ces variables (valeurs), à savoir le nom du fournisseur et sa localisation (ville et État). Le fait que l’État du fournisseur se trouve dans une colonne à part permet de rechercher et de filtrer les fournisseurs par État. Si la ville et l’État du fournisseur étaient réunis dans un seul champ, ce type d’analyse serait plus difficile à mener.
Fournisseur | Ville | État |
---|---|---|
Polly’s Lollipops |
Preston |
Washington |
Lucy’s Lollies |
Lansing |
Michigan |
Carlo Callazo’s Candy |
Cambridge |
Massachusetts |
Ming’s Minty Meringues |
Madison |
Wisconsin |
Données mal organisées
Les données mal organisées présentent des caractéristiques pouvant engendrer un certain désordre en leur sein ou les rendre difficiles à interpréter par des logiciels, y compris Tableau. On y retrouve notamment les problèmes suivants .
- Les différentes variables (champs) ne sont pas chacune placées dans une colonne distincte munie un en-tête.
- Chaque observation différente d’une variable (valeur) ne figure pas dans une ligne distincte.
- Les titres sont présentés sous forme de lignes au-dessus des en-têtes de colonne ou dans des colonnes supplémentaires.
- Les données contiennent des colonnes ou lignes supplémentaires.
- Les en-têtes de colonne sont mis en forme comme des sous-titres et ne se trouvent pas dans la première ligne.
À titre d’exemple, voici un tableau mal organisé, présentant le nombre moyen de films vus en 2019 par un échantillon de 16 000 personnes en Californie et à New York.
Remarquez-vous certaines des caractéristiques des données mal organisées décrites ci-dessus ?
- A. Présence de titres dans des lignes : la première ligne ne devrait contenir que des en-têtes de colonne. Cette ligne et celle du dessous sont des titres et non des en-têtes de colonne.
- B. Présence d’en-têtes de colonne dans la 3e ligne : même si elles sont surlignées, les cellules Caractéristiques et Taille d’échantillon ne seront pas interprétées comme des en-têtes de colonne par la plupart des logiciels, y compris Tableau.
- C. Présence d’une colonne supplémentaire : il s’agit du titre du rapport, mais il apparaît ici comme une colonne.
- D. Présence d’une ligne supplémentaire : État est une variable (champ) qui devrait disposer de sa propre colonne munie d’un en-tête, et ne devrait pas être présentée sous forme de ligne.
- E. (et F.) Présence de variables (champs) ayant le format de sous-titres : les sous-titres (Tranche d’âge, Nombre moyen de films vus en 2019) dans cette colonne sont des variables (champs) qui devraient figurer dans des colonnes dédiées.
Vous savez maintenant comment les données sont organisées, et faire la différence entre des données bien structurées et des données mal organisées. Dans l’unité suivante, vous découvrirez plusieurs manières de restructurer des données mal organisées.