Découverte des principes fondamentaux relatifs aux données
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Décrire ce que sont les données
- Décrire les différents types de sources de données
Introduction
Vous savez que la data literacy est la capacité à explorer des phénomènes, comprendre des situations et communiquer grâce aux données. Toutefois, que sont les données, au juste ?
Les données sont des faits individuels, des statistiques ou des informations. Une collection de données est une collection de faits. Regardons de plus près cette définition élargie. Jeffrey Leek, un scientifique des données qui enseigne à la Johns Hopkins Bloomberg School of Public Health, est parti de la définition des données figurant sur Wikipédia et l’a élargie pour élaborer sa propre définition :
Les données se composent de valeurs de variables quantitatives ou qualitatives, qui appartiennent à un ensemble d’éléments.
Décomposons ces différents éléments et définissons chaque terme.
Terme |
Définition |
---|---|
Ensemble d’éléments |
Parfois appelé population, un ensemble d’éléments est un groupe d’objets présentant un intérêt pour vous. |
Variable |
Une mesure, une propriété ou une caractéristique d’un élément susceptible de varier ou d’évoluer (par opposition à une mesure constante, telle que pi, qui ne varie pas). |
Variable qualitative |
Une variable qualitative décrit des qualités ou caractéristiques, comme un pays d’origine, le genre, le nom ou la couleur de cheveux. |
Variable quantitative |
Une variable quantitative décrit des caractéristiques mesurables, comme la taille, le poids ou la température. |
Prêt à vérifier vos connaissances ? Dans l’activité suivante, vous devez déterminer si chaque caractéristique est une variable qualitative ou une variable quantitative.
Méthodes de collecte des données
Nous disposons de divers outils et techniques de collecte de données, tels que les questionnaires, les entretiens, les observations, les analyses de documents, l’extraction de contenu Web et les mesures effectuées par des machines. Les données ainsi obtenues ou recueillies sont appelées données brutes. Les données brutes, aussi appelées données sources ou données principales, n’ont fait l’objet d’aucun traitement. Cela signifie qu’elles n’ont été passées en revue par aucun logiciel, qu’aucune variable n’a été modifiée, qu’aucune de leurs composantes n’a été supprimée et qu’elles n’ont aucunement été résumées. Les données brutes permettent d’effectuer les analyses de données les plus complètes possibles, étant donné qu’aucune information n’a été retirée et qu’elles n’ont pas été résumées.
Voici quelques exemples de données brutes :
- Image d’une bactérie vue au microscope
- Fichiers binaires produits par des machines
- Fichiers de feuille de calcul non formatés
- Données JSON extraites de l’API X
- Numéros collectés et consignés manuellement
Types de sources de données
Une source de données contient les données utilisées pour explorer des phénomènes, comprendre des situations et communiquer. Dans Tableau, par exemple, chaque graphique visible est connecté à une source de données fournissant les données présentées. Utilisez ces fiches interactives pour en savoir plus sur certaines sources de données courantes.
Lisez le terme sur chaque fiche, puis cliquez dessus pour révéler la description du terme. Cliquez sur la flèche vers la droite pour passer à la fiche suivante et sur la flèche vers la gauche pour revenir à la précédente.
Ressources
- Blog Tableau : Révélez des informations exploitables cachées : la quête inexorable du « pourquoi »
- Ouvrage : Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (2e éd.). Analytics Press, 29-32.
- Site Web : Perceptual Edge, le site professionnel de Stephen Few
- Coursera : La boîte à outils du Data Scientist (inscription au cours obligatoire)
- Tableau : Mission
Vous comprenez maintenant ce que signifie la data literacy, à quel point les questions sont importantes et quelles sont les caractéristiques utiles pour travailler efficacement avec les données. Vous savez également comment sont définies les données, de quelle manière elles sont recueilles et à quel endroit elles sont stockées.