Compréhension des données et de leur importance

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Présenter les types de données et de formats, tels que les tableaux, les textes, les images, les audios et les vidéos
Utiliser des techniques permettant d’identifier les types de sources de données et les méthodes de collecte de données
Comprendre l’impact qu’ont les données incorrectes sur le processus de prise de décision

Classification et type des données

Les données jouant aujourd’hui un rôle essentiel dans les différents secteurs d’activité, il est important de comprendre quels sont les différents types de données, leurs sources et les méthodes pour les collecter, ainsi que l’importance des données pour l’IA.

Classification des données

Les données peuvent être classées en trois catégories principales : structurées, non structurées et semi-structurées.

Les données structurées sont organisées et formatées d’une manière spécifique. Elles ont un format bien défini et il est facile d’y mener des recherches et de les analyser. Les feuilles de calcul et les bases de données sont des exemples de données structurées.
Les données non structurées, quant à elles, ne sont pas formatées d’une manière spécifique et peuvent se présenter sous la forme de texte, de documents, d’images, d’enregistrements audio et de vidéos. Les données non structurées sont plus difficiles à analyser, mais peuvent fournir des connaissances précieuses sur le comportement des clients et les tendances des marchés. Il peut s’agir de publications sur les réseaux sociaux, d’avis clients et de données conversationnelles comme des e-mails ou des publications Slack.
Les données semi-structurées consistent en une association de données structurées et non structurées. Elles ont une structure définie, mais peuvent également contenir des éléments non structurés. Il peut s’agir de fichiers XML (Extensible Markup Language) ou JSON (JavaScript Object Notation).

Format de données

Les données peuvent également être classées selon leur format.

Les données tabulaires sont des données structurées organisées en lignes et en colonnes, comme dans une feuille de calcul.
Les données textuelles incluent les données non structurées sous forme de documents texte, tels que des e-mails ou des rapports.
Les données d’image peuvent se présenter sous la forme d’informations visuelles telles que des logos de marque, des graphiques et des infographies.
Les données géospatiales font référence aux coordonnées géographiques et à la forme des cartes de pays, qui représentent des informations essentielles au sujet de la surface de la Terre.
Les données de séries temporelles sont des données pouvant contenir des informations au sujet d’une période donnée, par exemple les cours quotidiens des actions au cours de l’année précédente.

Types de données

Une autre façon de classer les données consiste à les trier par type, qui peut être quantitatif ou qualitatif.

Les données quantitatives sont numériques et peuvent être mesurées et analysées statistiquement. Il peut s’agir de chiffres des ventes, du nombre de clients à un emplacement géographique donné et du trafic d’un site Web.
Les données qualitatives, quant à elles, ne sont pas numériques et comportent du texte, des images et des vidéos. Dans de nombreux cas, les données qualitatives peuvent être plus difficiles à analyser, mais elles peuvent aussi fournir des connaissances précieuses sur les préférences et les opinions des clients. Il peut s’agir d’avis clients, de publications sur les réseaux sociaux et de réponses à des sondages.

Les données, qu’elles soient quantitatives ou qualitatives, sont importantes pour la réalisation d’analyses de données au sein d’un grand nombre de secteurs d’activité. Pour plus de détails sur ce sujet, consultez le module Trailhead Types de variables et de champs.

La compréhension des différents types et classifications de données est importante pour analyser efficacement les données. En classant les données selon les catégories « structurées », « non structurées » et « semi-structurées », et en différenciant les données quantitatives et qualitatives, les organisations peuvent choisir plus efficacement la bonne approche analytique qui leur permettra de générer des connaissances. Le fait d’explorer différents formats, tels que les tableaux, le texte et les images, rend l’analyse et l’interprétation des données plus efficaces.

Méthodes de collecte de données

L’identification des sources de données est une étape importante dans l’analyse des données. Il est possible d’obtenir des données à partir de diverses sources, notamment des jeux de données internes, externes et publics. Les sources de données internes incluent les données générées au sein d’une organisation, telles que les données sur les ventes et sur les clients. Les sources de données externes incluent les données obtenues en dehors d’une organisation, telles que les études de marché et les données des réseaux sociaux. Les jeux de données publics sont des jeux de données disponibles gratuitement qui peuvent être utilisés à des fins d’analyse et de recherche.

La collecte, l’étiquetage et le nettoyage des données sont des étapes importantes du processus d’analyse des données.

La collecte de données consiste à recueillir des données provenant de diverses sources.
L’étiquetage des données consiste à attribuer des balises ou des étiquettes aux données pour qu’il soit facile d’y effectuer des recherches et de les analyser. Il peut impliquer de classer les données, par exemple selon des tranches d’âge ou des catégories de produits.
Le nettoyage des données consiste à supprimer ou à corriger des erreurs et des incohérences dans les données afin d’améliorer la qualité et l’exactitude de ces dernières. Il peut s’agir de supprimer des données en double, de corriger des fautes d’orthographe et d’ajouter des données manquantes.

Diverses techniques peuvent être utilisées pour collecter des données. Il est par exemple possible de réaliser des sondages, des entretiens et des observations, ainsi que de procéder à l’extraction de contenu Web.

Les sondages permettent de collecter des données auprès d’un groupe de personnes à l’aide d’une série de questions. Ils peuvent être menés en ligne ou en face à face, et sont souvent utilisés pour collecter des données sur les préférences et les opinions des clients.
Les entretiens permettent de collecter des données auprès d’individus lors de conversations individuelles. Ils peuvent fournir des données plus détaillées que les sondages, mais leur réalisation peut également prendre beaucoup de temps.
Les observations permettent de collecter des données en regardant et en écoutant des personnes ou des événements. Elles peuvent fournir des données précieuses sur le comportement des clients et les interactions avec les produits.
L’extraction de contenu Web permet de collecter des données à partir de sites Web à l’aide d’outils logiciels. Elle peut être utilisée pour collecter des données sur les concurrents, les tendances du marché et les avis clients.

L’analyse exploratoire des données (AED) constitue généralement la première étape de tout projet exploitant des données. L’objectif de l’AED est d’en apprendre davantage sur les schémas généraux figurant au sein des données et de comprendre les connaissances et les caractéristiques clés qui leur sont associées.

L’importance des données dans l’IA

Les données sont une composante essentielle de l’IA, c’est pourquoi leur qualité et leur validité sont déterminantes pour le bon fonctionnement des différentes applications de l’IA. Parmi les considérations relatives à la qualité et à la validité des données, on retrouve notamment la nécessité de garantir que les données sont actualisées, exactes, complètes et représentatives de la population étudiée. La présence de données incomplètes, obsolètes ou contenant des erreurs peut avoir un impact significatif sur les prises de décision et l’intelligence artificielle, ce qui conduit à l’apparition de résultats inexacts ou biaisés.

La qualité des données est importante dès le commencement d’un projet impliquant l’IA. Voici quelques aspects à prendre en compte qui mettent en évidence l’importance des données et de leur qualité pour l’IA.

Entraînement et performances : la qualité des données utilisées pour entraîner les modèles d’IA a un impact direct sur les performances de ces derniers. Des données de haute qualité garantissent que le modèle apprend des schémas précis et représentatifs, ce qui conduit à la génération de prédictions plus fiables et à de meilleures prises de décision.
Précision et biais : la qualité des données est essentielle pour atténuer les biais au sein des systèmes d’IA. La présence de données biaisées ou inexactes peut induire des résultats biaisés, ce qui accentue les inégalités existantes ou perpétue des pratiques injustes. En garantissant la qualité des données, les organisations peuvent œuvrer pour l’équité et minimiser les résultats discriminatoires.
Généralisation et fiabilité : Les modèles d’IA doivent être capables de gérer efficacement des données nouvelles et inconnues et d’être toujours performants dans différentes situations. L’utilisation de données de haute qualité garantit que le modèle apprend des schémas pertinents et diversifiés, ce qui lui permet d’émettre des prédictions précises et de gérer efficacement de nouvelles situations.
Confiance et transparence : la qualité des données est étroitement liée à la fiabilité et à la transparence des systèmes d’IA. Les parties prenantes doivent avoir confiance envers les données utilisées et les processus impliqués. La mise en place de pratiques transparentes et d’un processus d’assurance qualité ciblant les données contribue à instaurer la confiance et à responsabiliser les intervenants.
Gouvernance et conformité des données : il est essentiel de prendre des mesures appropriées en ce qui concerne la qualité des données pour assurer leur gouvernance ainsi que la conformité aux exigences réglementaires. Les organisations doivent s’assurer que les données utilisées dans les systèmes d’IA respectent les normes de confidentialité et de sécurité, ainsi que les normes juridiques.

Pour disposer de données de haute qualité dans l’IA, il est nécessaire d’implémenter d’un cycle de vie des données fiable et de mettre l’accent sur la diversité et la représentativité des données, ainsi que sur l’élimination des biais potentiels. Le cycle de vie des données comporte différentes étapes et la qualité des données est importante à chacune d’entre elles. Le cycle de vie des données comprend la collecte, le stockage, le traitement, l’analyse, le partage, la rétention et l’élimination des données. Vous en apprendrez davantage à ce sujet dans l’unité suivante.

Dans cette unité, vous avez découvert différents types et sources de données ainsi que diverses méthodes pour les collecter, et avez pris conscience de leur importance dans l’IA. Dans l’unité suivante, vous apprendrez les concepts de base de l’apprentissage automatique et ses différences avec la programmation traditionnelle. Vous découvrirez également les techniques d’IA et leurs applications dans des situations concrètes.

Durée estimée

Thèmes

Besoin d'aide ?

Compréhension des données et de leur importance

Objectifs de formation

Classification et type des données

Méthodes de collecte de données

L’importance des données dans l’IA

Ressources