Remettre en question les données
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Rechercher la source de données et de graphiques
- Évaluer la fiabilité de données et d’analyses
Identification de la source
« Méfiez-vous de toute publication qui ne mentionne pas clairement ses sources ou n’y fait pas référence. » – Alberto Cairo, expert en visualisation des données et auteur de How Charts Lie
Certaines des images dans cette unité ont été utilisées avec la permission d’Alberto Cairo et tirées de son ouvrage How Charts Lie: Getting Smarter about Visual Information.
Des rapports commerciaux aux publications sur les réseaux sociaux, il est important d’identifier et d’évaluer la source des données et des graphiques que vous consultez. Connaître la source est la première étape (et la plus importante !) pour déterminer si un graphique est trompeur. Faites des recherches sur la source en vous posant des questions pour comprendre le contexte de création du graphique : par qui, sur quoi, où, quand et dans quel but ?
Point à étudier |
Description |
Questions à se poser |
---|---|---|
Qui |
Pour vérifier la source des données et s’il existe un intérêt à produire l’information ou à la présenter d’une certaine manière. |
|
Quoi |
Pour comprendre le type de données recueillies et comment elles ont été mesurées afin de vérifier l’exactitude des données présentées. |
|
Où |
Évaluer les méthodes de collecte de données utilisées et évaluer la crédibilité et le contexte de la source. |
|
Quand |
Déterminer la pertinence des données utilisées en fonction du moment où elles ont été recueillies. |
|
Objectif |
Pour découvrir une éventuelle motivation financière, politique, scientifique, philanthropique ou autre qui pourrait influencer l’objectivité des données présentées. |
|
Pour vous aider à remettre en question les données, assurez-vous d’étudier les métadonnées, autrement dit, les données sur les données. Lisez toute documentation d’accompagnement pour recueillir des informations utiles à partir des métadonnées, telles que quand, comment et pourquoi les données ont été collectées.
Examen des données
En informatique, en matière de données, on dit souvent « garbage in, garbage out » : la qualité de toute sortie est déterminée par celle de l’entrée. Cette idée s’applique à une grande variété de choses, y compris la consommation de données. Lorsque vous regardez des visualisations telles que des graphiques basés sur des données inexactes, vous risquez de tirer des conclusions erronées et de prendre des mesures inefficaces. Pour vous aider à déterminer la qualité et l’exactitude des données présentées dans les visualisations, examinez autant de données sous-jacentes que possible.
Vérification des valeurs récapitulatives
Les graphiques sont souvent accompagnés de valeurs récapitulatives qui décrivent et résument les données sous-jacentes. Les valeurs récapitulatives, également appelées statistiques récapitulatives, donnent des informations générales sur les données, révélant souvent des indices significatifs qui méritent d’être pris en compte et de faire l’objet de recherches plus poussées. Le tableau ci-dessous vous aidera à vous familiariser avec les valeurs récapitulatives courantes.
Valeur récapitulative |
Description |
---|---|
Somme |
Le total des valeurs |
Total |
Le nombre de valeurs |
Moyenne |
Moyenne des nombres, calculée en divisant le total des nombres (somme) par le nombre de valeurs dans l’ensemble de données (unités) |
Médiane |
Valeur médiane d’un ensemble de données dans lequel les valeurs ont été ordonnées par ordre de grandeur (croissant) |
Mode |
La valeur la plus fréquente |
Écart |
La différence entre le minimum et le maximum |
Min |
La plus petite valeur |
Max |
La plus grande valeur |
Vérification des taux et pourcentages
Les taux et les pourcentages mesurent un rapport entre les valeurs. Par exemple, suite à une présentation, vous pouvez observer que trois participants sur cinq s’inscrivent à une newsletter. On peut dire que ⅗ ou 0,60 ou 60 % des participants se sont inscrits à la newsletter. Comme vous le voyez dans la section suivante, connaître le taux ou le pourcentage vous aidera souvent à faire de meilleures comparaisons.
Prenons par exemple ce titre d’article : « 2 139 bénéficiaires du statut DACA condamnés ou accusés de crime ». Sans connaître le contexte, ce nombre peut sembler important. Cependant, si vous tenez compte du taux (ou pourcentage), vous voyez les choses différemment. Le même article indique qu’il y a plus de 800 000 bénéficiaires du statut DACA. On obtient alors une proportion de 2 139/800 000, ce qui correspond à 0,003 ou 0,3 % ! Ce pourcentage est une valeur plus parlante et ne représente pas une grande part du nombre total de bénéficiaires.
Attention aux données insuffisantes
« Aucun graphique ne peut jamais capturer la réalité dans toute sa richesse. Cependant, un graphique peut être plus ou moins bon en fonction de sa capacité à trouver un équilibre entre simplifier à l’excès cette réalité et l’obscurcir avec trop de détails. » – Alberto Cairo, How Charts Lie
Lors de la lecture des graphiques, demandez-vous si suffisamment de données sont incluses pour fournir une version significative et précise des faits. Dans son livre How Charts Lie, Albert Cairo explique comment des données insuffisantes peuvent conduire à des conclusions erronées. Pour cela, il fait référence à un article selon lequel la loi américaine de 2017 intitulée « Tax Cuts and Jobs Act » (TCJA) promettait qu’une famille « moyenne » de quatre personnes économiserait 1 182 $ par an, et il explique en quoi ce nombre n’est pas représentatif. Pour peindre un tableau plus complet, Cairo décrit un histogramme, une distribution de données quantitatives qui montre les données regroupées en plages.
Grâce à cet histogramme, voyons pourquoi ce nombre est une simplification excessive. Lorsqu’on regarde ces données, on remarque que l’éventail des salaires est important. En raison de cette large fourchette, il serait très difficile de déterminer le salaire d’un foyer « moyen ». Il existe clairement une fourchette importante de salaires aux États-Unis. Alors que 3 % des ménages ont gagné moins de 5 000 $ par an, plus de 9 % ont gagné plus de 200 000 $. Il est presque insensé de mentionner les économies moyennes réalisées grâce au TCJA, puisqu’il est presque impossible de calculer précisément les revenus d’une famille « moyenne ».
Dans l’unité suivante, découvrez l’importance d’utiliser des intervalles de taille égale sur les axes.
Ressources
- Trailhead : Concepts de base de la data literacy
- Trailhead : Agrégation et granularité
- Trailhead : Distributions des données
- Ouvrage : Alberto Cairo (2020) : How Charts Lie: Getting Smarter About Visual Information, W.W. Norton & Company
- Ouvrage : Edward Tufte (2006) : Beautiful Evidence. Graphics Press
- Site Tableau : Comprendre et utiliser les histogrammes
- Ouvrage : Steve Few (2012) : Show Me the Numbers, Analytics Press