Identification des caractéristiques des données
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Identifier les caractéristiques des données utiles
- Reconnaître ce qui caractérise des données utiles dans des exemples de données
Introduction
Le recours aux analyses de données pour appuyer les prises de décision est très fréquent. Savez-vous comment déterminer si vos données sont analysables ? Dans ce module, vous apprendrez à reconnaître les données de bonne qualité, et à restructurer des données lorsque cela s’avère nécessaire.
Dans cette unité, vous apprendrez à reconnaître ce qui caractérise des données utiles et de qualité. Les données qui présentent ces caractéristiques vous permettent d’effectuer des analyses efficaces et productives.
Le module Concepts de base de la data literacy présente les caractéristiques qui contribuent à utiliser efficacement les données selon Stephen Few, grand spécialiste des technologies de l’information. Les personnes qui savent travailler efficacement avec les données présentent des traits spécifiques ; il en est de même pour les données efficaces, qui ont des caractéristiques particulières les rendant utiles. En outre, selon Stephen Few, le fait de travailler avec des données de qualité joue un rôle essentiel en matière d’analyse, et conduit à la découverte d’informations importantes.
Stephen Few est l’un des chefs de file en matière de visualisation des données. Ces caractéristiques ont été adaptées, avec sa permission, de son ouvrage Now You See It : An Introduction to Visual Data Sensemaking.
Caractéristiques des données utiles
Stephen Few a compilé une liste de caractéristiques associées aux données utiles. En parcourant ces caractéristiques, réfléchissez à votre propre expérience. Avez-vous déjà disposé de données utiles dans votre vie personnelle ou professionnelle ? Quelles caractéristiques ces données possédaient-elles ? Avez-vous déjà disposé de données qui ne se sont pas avérées utiles dans votre vie personnelle ou professionnelle ? Que manquait-il à ces données ?
Voici quelques-unes des caractéristiques des données de qualité.
Caractéristiques |
Description |
---|---|
Abondance |
Si vous disposez d’un volume abondant de données pertinentes, vous aurez davantage de chances d’y trouver les éléments dont vous avez besoin pour répondre à vos questions. Remarque : recueillir un volume important de données ne suffit pas en soi, leur pertinence est essentielle. |
Caractère historique |
Les données historiques vous permettent de comprendre la cause d’une situation présente à partir des tendances temporelles, comme les tendances en matière de ventes sur une période de 10 ans, pour observer les augmentations et les baisses. |
Cohérence |
Au fur et à mesure qu’une situation évolue, les données doivent être ajustées en conséquence. Il est par exemple nécessaire d’ajuster les données sur les salaires et les prix en fonction de l’inflation. |
Diversité |
Les données doivent contenir des variables quantitatives (mesurables numériquement) et qualitatives (des caractéristiques non mesurables numériquement). Plus vos données contiennent de variables, plus vous pourrez y faire de découvertes. |
Atomicité |
Plus les données sont détaillées, plus vous pourrez les examiner à différents niveaux de détail. Par exemple, si vous souhaitez analyser les tendances en matière d’utilisation de vélos dans votre région, il peut être utile d’analyser ces tendances par département, ville et quartier. |
Fiabilité |
Pour que les données soient utiles, elles doivent être précises, complètes et exemptes d’erreurs. |
Clarté |
Les données doivent être présentées d’une manière facile à comprendre au lieu d’être codées. Par exemple, les valeurs Romance, Action ou Science-fiction sont plus faciles à comprendre que Rmc, Act ou Sf pour des genres de films. |
Structuration dimensionnelle |
Vous pouvez structurer les données en deux types pour les rendre plus accessibles : les dimensions (valeurs qualitatives) et les mesures (valeurs quantitatives). Tableau utilise cette structure organisationnelle pour interpréter les données. |
Richesse de segmentation |
Il est nécessaire de créer des groupes au sein des données, sur la base de caractéristiques similaires, pour faciliter leur analyse. Par exemple, vous pouvez regrouper des données relatives à des films par genre (action, science-fiction, romance, comédie, etc.). |
Traçabilité |
Afin de pouvoir faire confiance aux données, vous devez connaître le contexte les entourant (leur provenance et les modifications qui leur ont été apportées). |
Quelques exemples de données
Imaginez que vous disposez d’un fichier Excel intitulé « January-reactors-operating » téléchargé depuis Data.gov, le site Web permettant d’accéder aux données ouvertes fournies par les instances administratives des États-Unis. Ce fichier contient des informations sur les emplacements et puissances des centrales nucléaires aux États-Unis. L’image suivante présente un aperçu des 16 premières lignes de données.
Réfléchissons aux caractéristiques des données utiles. Vous savez que cet ensemble de données provient de Data.gov, un site permettant d’accéder à des données ouvertes fournies par les instances administratives des États-Unis, et vous pouvez voir qu’il contient des données concernant les années 2003 à 2018. Voyons ce que vous avez retenu. Quelles sont les deux caractéristiques des données utiles étant représentées ? Dans l’activité ci-dessous, sélectionnez les mots manquants dans chaque phrase.
Vous avez maintenant une meilleure compréhension des caractéristiques des données pertinentes. Dans l’unité suivante, vous allez découvrir comment les données sont organisées, et apprendre à faire la différence entre des données bien structurées et des données mal organisées.
Ressources
- Livre : Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (2e éd.). Analytics Press.
- Site Web : Perceptual Edge, le site professionnel de Stephen Few