Skip to main content

Remettre en question les données

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

  • Rechercher la source de données et de graphiques
  • Évaluer la fiabilité de données et d’analyses
Remarque

Certaines des images dans cette unité ont été utilisées avec la permission d’Alberto Cairo et tirées de son ouvrage How Charts Lie: Getting Smarter about Visual Information.

Identification de la source

« Méfiez-vous de toute publication qui ne mentionne pas clairement ses sources ou n’y fait pas référence. » – Alberto Cairo, expert en visualisation des données et auteur de How Charts Lie

Certaines des images dans cette unité ont été utilisées avec la permission d’Alberto Cairo et tirées de son ouvrage How Charts Lie: Getting Smarter about Visual Information.

Des rapports commerciaux aux publications sur les réseaux sociaux, il est important d’identifier et d’évaluer la source des données et des graphiques que vous consultez. Connaître la source est la première étape (et la plus importante !) pour déterminer si un graphique est trompeur. Faites des recherches sur la source en vous posant des questions pour comprendre le contexte de création du graphique : par qui, sur quoi, où, quand et dans quel but ?

Point à étudier

Description

Questions à se poser

Qui

Pour vérifier la source des données et s’il existe un intérêt à produire l’information ou à la présenter d’une certaine manière.

  • Qui est responsable des données, des analyses et des présentations qui en résultent ?
  • Qui a recueilli et analysé ou créé les données ?
  • L’auteur a-t-il été payé pour recueillir, analyser et présenter les données ? Si oui, y a-t-il des conflits d’intérêts potentiels ?
  • L’auteur ou l’éditeur du graphique est-il une autorité en la matière ?
  • Une organisation spécifique ou plusieurs organisations ont-elles été impliquées dans ce travail ?

Quoi

Pour comprendre le type de données recueillies et comment elles ont été mesurées afin de vérifier l’exactitude des données présentées.

  • Quelles méthodes ont été utilisées pour recueillir et préparer les données ?
  • Quels types de données l’auteur présente-t-il ?
  • Quels types de mesures ont été prises et quelle est leur précision ?
  • Quelle était la taille de l’échantillon des données ?
  • Combien de personnes ont été interrogées dans un sondage et quelle était la répartition démographique des personnes interrogées ?

Évaluer les méthodes de collecte de données utilisées et évaluer la crédibilité et le contexte de la source.

  • Les données ont-elles été recueillies dans une région, un État ou un pays spécifique ?
  • Les données ont-elles été collectées à différents endroits ?
  • Les données sont-elles disponibles sur le site Web d’une source crédible ?

Quand 

Déterminer la pertinence des données utilisées en fonction du moment où elles ont été recueillies.

  • Les données sont-elles récentes ?
  • Les données ont-elles été recueillies sur une longue période ? Si oui, pendant combien de temps ?
  • Les données ont-elles été recueillies annuellement, mensuellement, quotidiennement ou même à la minute ou à la seconde ?

Objectif

Pour découvrir une éventuelle motivation financière, politique, scientifique, philanthropique ou autre qui pourrait influencer l’objectivité des données présentées.

  • Les auteurs avaient-ils une raison particulière de recueillir ces données et de mener cette analyse ?
  • Une entreprise payait-elle un chercheur pour tester un nouveau produit ?
  • S’agit-il d’une étude gouvernementale commanditée par la communauté ?

Pour vous aider à remettre en question les données, assurez-vous d’étudier les métadonnées, autrement dit, les données sur les données. Lisez toute documentation d’accompagnement pour recueillir des informations utiles à partir des métadonnées, telles que quand, comment et pourquoi les données ont été collectées.

Remarque

Pour plus de conseils sur l’évaluation efficace de la crédibilité de vos sources, consultez le document de l’Université de Washington intitulé Savvy Info Consumers Research Guide (Guide du consommateur de données éclairé).

Examen des données

En informatique, en matière de données, on dit souvent « garbage in, garbage out » : la qualité de toute sortie est déterminée par celle de l’entrée. Cette idée s’applique à une grande variété de choses, y compris la consommation de données. Lorsque vous regardez des visualisations telles que des graphiques basés sur des données inexactes, vous risquez de tirer des conclusions erronées et de prendre des mesures inefficaces. Pour vous aider à déterminer la qualité et l’exactitude des données présentées dans les visualisations, examinez autant de données sous-jacentes que possible.

Vérification des valeurs récapitulatives

Les graphiques sont souvent accompagnés de valeurs récapitulatives qui décrivent et résument les données sous-jacentes. Les valeurs récapitulatives, également appelées statistiques récapitulatives, donnent des informations générales sur les données, révélant souvent des indices significatifs qui méritent d’être pris en compte et de faire l’objet de recherches plus poussées. Le tableau ci-dessous vous aidera à vous familiariser avec les valeurs récapitulatives courantes.

Valeur récapitulative

Description

Somme

Le total des valeurs 

Total

Le nombre de valeurs

Moyenne

Moyenne des nombres, calculée en divisant le total des nombres (somme) par le nombre de valeurs dans l’ensemble de données (unités)

Médiane

Valeur médiane d’un ensemble de données dans lequel les valeurs ont été ordonnées par ordre de grandeur (croissant)

Mode

La valeur la plus fréquente

Écart

La différence entre le minimum et le maximum

Min

La plus petite valeur

Max

La plus grande valeur

Remarque

Ce ne sont là que quelques valeurs récapitulatives courantes que vous pouvez rencontrer, mais il en existe bien d’autres. Pour en savoir plus, consultez les modules Distributions des données et Agrégation et granularité.

Vérification des taux et pourcentages

Les taux et les pourcentages mesurent un rapport entre les valeurs. Par exemple, suite à une présentation, vous pouvez observer que trois participants sur cinq s’inscrivent à une newsletter. On peut dire que ⅗ ou 0,60 ou 60 % des participants se sont inscrits à la newsletter. Comme vous le voyez dans la section suivante, connaître le taux ou le pourcentage vous aidera souvent à faire de meilleures comparaisons. 

Prenons par exemple ce titre d’article : « 2 139 bénéficiaires du statut DACA condamnés ou accusés de crime ». Sans connaître le contexte, ce nombre peut sembler important. Cependant, si vous tenez compte du taux (ou pourcentage), vous voyez les choses différemment. Le même article indique qu’il y a plus de 800 000 bénéficiaires du statut DACA. On obtient alors une proportion de 2 139/800 000, ce qui correspond à 0,003 ou 0,3 % ! Ce pourcentage est une valeur plus parlante et ne représente pas une grande part du nombre total de bénéficiaires.

Attention aux données insuffisantes

« Aucun graphique ne peut jamais capturer la réalité dans toute sa richesse. Cependant, un graphique peut être plus ou moins bon en fonction de sa capacité à trouver un équilibre entre simplifier à l’excès cette réalité et l’obscurcir avec trop de détails. » – Alberto Cairo, How Charts Lie

Lors de la lecture des graphiques, demandez-vous si suffisamment de données sont incluses pour fournir une version significative et précise des faits. Dans son livre How Charts Lie, Albert Cairo explique comment des données insuffisantes peuvent conduire à des conclusions erronées. Pour cela, il fait référence à un article selon lequel la loi américaine de 2017 intitulée « Tax Cuts and Jobs Act » (TCJA) promettait qu’une famille « moyenne » de quatre personnes économiserait 1 182 $ par an, et il explique en quoi ce nombre n’est pas représentatif. Pour peindre un tableau plus complet, Cairo décrit un histogramme, une distribution de données quantitatives qui montre les données regroupées en plages. 

Histogramme montrant la répartition du revenu familial des ménages aux États-Unis en 2017.

Grâce à cet histogramme, voyons pourquoi ce nombre est une simplification excessive. Lorsqu’on regarde ces données, on remarque que l’éventail des salaires est important. En raison de cette large fourchette, il serait très difficile de déterminer le salaire d’un foyer « moyen ». Il existe clairement une fourchette importante de salaires aux États-Unis. Alors que 3 % des ménages ont gagné moins de 5 000 $ par an, plus de 9 % ont gagné plus de 200 000 $. Il est presque insensé de mentionner les économies moyennes réalisées grâce au TCJA, puisqu’il est presque impossible de calculer précisément les revenus d’une famille « moyenne ».

Remarque

Pour en savoir plus sur les distributions, terminez le module Distributions des données.

Dans l’unité suivante, découvrez l’importance d’utiliser des intervalles de taille égale sur les axes. 

Ressources

Partagez vos commentaires sur Trailhead dans l'aide Salesforce.

Nous aimerions connaître votre expérience avec Trailhead. Vous pouvez désormais accéder au nouveau formulaire de commentaires à tout moment depuis le site d'aide Salesforce.

En savoir plus Continuer à partager vos commentaires