Découverte de l’organisation des données

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Décrire de quelle manière les données bien structurées sont organisées
Distinguer les données bien structurées de celles mal organisées

Introduction

Dans l’unité précédente, vous avez découvert certaines des caractéristiques des données utiles et de qualité. La structuration dimensionnelle et l’atomicité constituent deux caractéristiques qui se rapportent spécifiquement à l’organisation des données. Les données structurées de manière dimensionnelle sont classées en deux types : les dimensions (valeurs qualitatives) et les mesures (valeurs quantitatives). Tableau utilise cette structure organisationnelle pour interpréter les données. Les données atomiques sont d’une grande précision, ce qui vous permet de les analyser à différents niveaux de détail.

Lorsque les données sont organisées, elles sont plus faciles à analyser, car elles peuvent être examinées, résumées, consultées via des recherches et filtrées de différentes manières. Lorsque les données ne sont pas organisées, l’analyse que vous pouvez en faire est souvent limitée. Par exemple, si les données sont déjà résumées par mois, il n’est pas possible d’y examiner des tendances quotidiennes ou hebdomadaires.

Dans cette unité, vous apprendrez comment sont organisées des données bien structurées.

Organisation des données

Les données sont organisées en lignes et en colonnes.

Les colonnes sont verticales, et chaque colonne représente une variable ou un champ différent. Le module Concepts de base de la data literacy définit une variable comme une mesure, propriété ou caractéristique d’un élément susceptible de varier ou d’évoluer. Dans Tableau, les variables sont appelées champs.
Les lignes sont horizontales, et chacune d’entre elles représente une unité d’analyse. Sur la plate-forme Tableau, les unités d’analyse sont appelées valeurs.

Examinons un exemple. Créez un tableau concernant des membres de votre famille ou des amis avec des variables (ou champs) présentant leur nom, âge, taille et aliment préféré. Votre tableau ressemblera certainement à celui qui est ci-dessous.

Nom	Ancienneté	Taille (mètres)	Aliment préféré
Aliya	8	1,27	Crème glacée
Miles	12	1,60	Pizza aux olives
Penny	42	1,60	Maïs en épi
Vince	39	1,78	Pancakes

Comme vous pouvez le voir, les variables (ou champs) sont organisées en colonnes : Nom, Âge, Taille et Aliment préféré. Chaque ligne représente une unité d’analyse (ou valeur). Ici, en lisant chaque ligne, vous pouvez déterminer le nom, l’âge, la taille et l’aliment préféré de chaque personne. Par exemple, Aliya a 8 ans, mesure 1,27 m et aime la crème glacée.

Organisation des « bonnes » données

Les « bonnes » données sont des données bien structurées qui sont organisées ainsi :

Chaque variable (champ) est dans une colonne munie d’un en-tête de colonne.
Chacune des observations différentes de cette variable (valeur) se trouve dans une ligne différente.

Par exemple, étudions ce tableau simple. Les variables (champs) sont Fournisseur, Ville et État, et chaque variable dispose de sa colonne munie d’un en-tête. Chaque ligne liste les observations de ces variables (valeurs), à savoir le nom du fournisseur et sa localisation (ville et État). Le fait que l’État du fournisseur se trouve dans une colonne à part permet de rechercher et de filtrer les fournisseurs par État. Si la ville et l’État du fournisseur étaient réunis dans un seul champ, ce type d’analyse serait plus difficile à mener.

Fournisseur	Ville	State (Région)
Polly’s Lollipops	Preston	Washington
Lucy’s Lollies	Lansing	Michigan
Carlo Callazo’s Candy	Cambridge	Massachusetts
Ming’s Minty Meringues	Madison	Wisconsin

Données mal organisées

Les données mal organisées présentent des caractéristiques pouvant engendrer un certain désordre en leur sein ou les rendre difficiles à interpréter par des logiciels, y compris Tableau. On y retrouve notamment les problèmes suivants .

Les différentes variables (champs) ne sont pas chacune placées dans une colonne distincte munie un en-tête.
Chaque observation différente d’une variable (valeur) ne figure pas dans une ligne distincte.
Les titres sont présentés sous forme de lignes au-dessus des en-têtes de colonne ou dans des colonnes supplémentaires.
Les données contiennent des colonnes ou lignes supplémentaires.
Les en-têtes de colonne sont mis en forme comme des sous-titres et ne se trouvent pas dans la première ligne.

À titre d’exemple, voici un tableau mal organisé, présentant le nombre moyen de films vus en 2019 par un échantillon de 16 000 personnes en Californie et à New York.

Tableau de 16 lignes et 3 colonnes, avec des flèches indiquant des exemples de mises en forme inadéquates.

Remarquez-vous certaines des caractéristiques des données mal organisées décrites ci-dessus ?

A. Présence de titres dans des lignes : la première ligne ne devrait contenir que des en-têtes de colonne. Cette ligne et celle du dessous sont des titres et non des en-têtes de colonne.
B. Présence d’en-têtes de colonne dans la 3e ligne : même si elles sont surlignées, les cellules Characteristic (Caractéristiques) et Sample Size (Taille d’échantillon) ne seront pas interprétées comme des en-têtes de colonne par la plupart des logiciels, y compris Tableau.
C. Présence d’une colonne supplémentaire : il s’agit du titre du rapport, mais il apparaît ici comme une colonne.
D. Présence d’une ligne supplémentaire : l’État est une variable (champ) qui devrait disposer de sa propre colonne munie d’un en-tête, et ne devrait pas être présentée sous forme de ligne.
E. (et F.) Présence de variables (champs) ayant le format de sous-titres : les sous-titres (Age Group [Tranche d’âge], Average number of movies seen in 2019 [Nombre moyen de films vus en 2019]) dans cette colonne sont des variables (champs) qui devraient figurer dans des colonnes dédiées.

Remarque : les problèmes relatifs aux données tels que ceux présentés ci-dessus sont très fréquents dans les fichiers Excel et d’autres tableurs. Soyez donc vigilant lorsque vous utilisez des feuilles de calcul.

Vous savez maintenant comment les données sont organisées, et faire la différence entre des données bien structurées et des données mal organisées. Dans l’unité suivante, vous découvrirez plusieurs manières de restructurer des données mal organisées.

Durée estimée

Thèmes

Besoin d'aide ?

Ressources Tableau