Skip to main content

Préparation de vos données

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

  • Expliquer comment identifier et résoudre les problèmes liés aux données
  • Définir les exigences en données pour votre projet

Importance de la préparation des données

Votre organisation doit être prête à gérer les données pour démarrer un projet d’IA. Les données du projet doivent être exactes, disponibles, accessibles et gérées de manière sécurisée.

Dans de nombreuses organisations, la qualité des données constitue un obstacle majeur à l’implémentation de projets d’IA. Et pour cause ! Les données constituent la base des algorithmes d’IA, leur permettant d’apprendre, de s’adapter et de prendre de meilleures décisions. Des données de haute qualité peuvent améliorer la précision, l’efficacité, la fiabilité et l’équité des systèmes d’IA.

Il est essentiel de résoudre les problèmes de qualité des données avant d’implémenter votre projet d’IA. Cependant, ne laissez pas l’envie d’avoir des données parfaites entraver le projet. De nombreux projets restent bloqués à l’étape de préparation des données, car les équipes recherchent la perfection. Travaillez plutôt avec votre équipe pour identifier des objectifs raisonnables en matière de préparation des données. Vous pouvez utiliser l’étape d’élaboration pour identifier et combler les lacunes dans vos données qui affectent la sortie de l’IA.

Cette unité donne un aperçu de la manière d’évaluer la qualité de vos données et de préparer vos données pour un projet d’IA.

Création d’un inventaire de données

Becca sait que la meilleure façon d’obtenir une vue complète des données de son projet est de créer un inventaire des données. Un inventaire de données vous aide à gérer divers actifs de données et à identifier les problèmes potentiels.

Pour créer votre inventaire de données, suivez les étapes ci-après.

  1. Identifiez les données dont vous avez besoin dans votre projet.
  2. Identifiez l’emplacement de stockage des données.
  3. Répondez à quelques questions sur vos données.
    • Les données sont-elles structurées, non structurées ou semi-structurées ? (Apprenez-en plus sur la classification des données dans Fondamentaux des données pour l’IA.)
    • À quelle fréquence vos données sont-elles actualisées ?
    • Les données sont-elles mises à jour en temps réel, toutes les heures, tous les jours, tous les mois ou de manière statique ?
    • Quels sont les moyens d’accéder aux données ?
    • Des normes de gouvernance ont-elles été implémentées pour les données ?
    • Quelles sont les considérations relatives aux données qui peuvent poser problème dans votre projet ?

Inventaire des données de Coral Cloud

Continuons avec le projet d’IA de Becca visant à automatiser le processus d’enregistrement de Coral Cloud Resorts. Pour rappel, voici le plan de déploiement de Becca, avec les points de données clés en gras.

  1. Utiliser un flux pour créer un enregistrement d’événement client fondé sur les dernières données de réservation dans Data Cloud.
  2. Apprendre à Einstein Copilot comment lancer le flux grâce au langage conversationnel. Ainsi, lorsque la cliente Sofia Rodriguez arrive à l’hôtel, le personnel peut par exemple simplement demander à Einstein d’« enregistrer Sofia Rodriguez » et ce dernier s’occupe du reste !
  3. Utiliser le générateur de répliques pour générer un e-mail de bienvenue personnalisé afin de recommander des excursions susceptibles d’intéresser les clients et l’envoyer.

Becca examine son plan afin de déterminer les données dont elle a besoin pour implémenter la solution.

  • À l’étape 1, elle a besoin de données de réservation. Coral Cloud utilise une plate-forme externe appelée Reserv-o-matic pour stocker les données de réservation. Elle utilise donc Data Cloud pour importer ces données dans Salesforce.
  • À l’étape 2, elle doit pouvoir récupérer les données de réservation en fonction du nom du client. Les données client sont disponibles dans Salesforce.
  • À l’étape 3, elle a besoin de données sur les excursions que le client a réservées par le passé. L’historique des achats des clients est également disponible dans Salesforce.

Après avoir trouvé les sources de données requises, Becca crée un inventaire des données.

Nom des données

Source de données

Type de données

Cadence de mise à jour

Considérations

Les enregistrements de contact

CRM

Structuré

Quotidien

Les dates sont au format MM/JJ/AA

Réserves

Reserv-o-matic

Structuré

En temps réel

Les dates sont au format JJ/MM/AA.

Excursions

CRM

Structuré

Quotidien

Les dates sont au format MM/JJ/AA

Capture des données requises pour le projet

Les exigences en matière de données d’un projet sont essentielles à la réussite de votre projet. En comprenant vos besoins en matière de données, vous pourrez réduire le travail inutile.

Évaluation de la qualité des données

Des données de haute qualité permettent de créer des projets d’IA fiables et efficaces. (Apprenez-en davantage sur l’évaluation de la qualité des données dans le module Qualité des données.) Lorsque vous évaluez la qualité de vos données, identifiez les anomalies. Vous pourrez les résoudre en procédant à un nettoyage de données. Le nettoyage des données est le processus de correction ou de suppression des données incorrectes, corrompues, mal formatées, dupliquées ou incomplètes dans un ensemble de données. Il permet notamment de réduire les écarts dans les données. Le nettoyage des données peut prendre du temps, ne nettoyez donc pas les données dont vous n’avez pas besoin pour votre projet.

Comme Becca le note dans son inventaire de données, les dates de réservation sont au format JJ/MM/AA tandis que les enregistrements de contact et les excursions sont au format MM/JJ/AA. Les dates ne sont pas dans un format cohérent, elles ne répondent donc pas aux critères de qualité. Becca élabore un programme rapide pour convertir toutes les dates de réservation au format MM/JJ/AA.

Alors que Becca corrige quelques problèmes de données supplémentaires, elle se rend compte qu’il y a trop de données pour obtenir un résultat parfait. Coral Cloud est un complexe hôtelier de classe mondiale qui accueille des milliers de clients par an. Elle se sent découragée jusqu’à ce qu’elle réalise qu’elle surestimait les données requises pour son projet et qu’elle effaçait les réservations des années précédentes. Elle n’a besoin de nettoyer que les futures réservations, car ce sont les seules qui utiliseront l’enregistrement automatique. Becca filtre donc les réservations par dates futures. En comprenant les exigences du projet en matière de données, elle a désormais beaucoup moins d’enregistrements à traiter.

Migration et intégration des données

Lorsque vous disposez de données provenant de plusieurs sources, vous devez migrer ces données. Il s’agit de transférer des données d’une source vers une source centrale. Si votre projet est créé dans Salesforce, importez vos données externes dans Salesforce. Après avoir migré les données, intégrez-les en combinant les données de différentes sources dans une vue unifiée et complète. Migrez et intégrez uniquement les données nécessaires à votre projet. Votre projet reste ainsi facile à gérer et votre système n’est pas encombré par des données inutiles.

Étant donné que le projet de Becca implique la création d’un enregistrement d’événement client fondé sur les données de réservation dans Reserv-o-matic et l’enregistrement de contact dans Salesforce, elle sait qu’elle doit lier les données de réservation à l’enregistrement de contact. Sinon, le flux ne saura pas quelle réservation appartient à quel contact. Becca ne souhaite pas intégrer de données inutiles, elle examine donc les enregistrements de réservation pour identifier les champs inutiles. Elle remarque que les réservations disposent d’un champ Notes permettant aux clients de faire des demandes spéciales. Il n’y a pas de format spécifique et de nombreux clients le laissent vide. Becca n’a pas besoin du champ Notes pour créer un enregistrement d’événement client, elle supprime donc ce champ avant de migrer les réservations vers Salesforce.

Becca configure un flux de données pour importer des données depuis Reserv-o-matic. Elle utilise ensuite le processus de résolution de l’identité pour faire correspondre le profil de Sofia dans Salesforce à celui dans Reserv-o-matic. Désormais, l’enregistrement de Sofia contient à la fois ses informations de contact Salesforce et ses informations de réservation Reserv-o-matic.

Établissement d’une gouvernance des données

Plus vous limiterez le nombre de personnes traitant vos données, plus celles-ci seront cohérentes. Limitez la gouvernance aux personnes nécessaires. Dans le cas de Becca, elle ne donne l’accès qu’à elle-même et à son responsable.

Plan d’analyse

Élaborez un plan d’analyse pour mesurer la réussite. Cette étape est importante pour surveiller les performances et mettre en évidence le retour sur investissement (ROI) de votre projet. Il est essentiel de mettre en évidence le ROI pour obtenir du soutien afin de continuer à développer votre projet ou de futurs projets d’IA.

Le plan d’analyse doit être conforme aux objectifs du projet que vous avez décrits dans l’unité précédente. Pour rappel, voici les objectifs du projet de Becca.

  • Réduire le temps d’enregistrement de 50 %.
  • Maintenir la satisfaction client au même niveau que celui mesuré avant le projet, ou à un niveau supérieur.

Elle décide de la méthode de collecte et d’analyse des données pour mesurer si son projet a atteint ces objectifs. Becca propose le plan suivant.

  • Calculer le temps passé devant l’écran des ordinateurs de la réception à la fin de chaque journée. Comparer le temps d’écran moyen avant et après l’implémentation du processus d’enregistrement avec l’IA.
  • Proposer à chaque client une enquête facultative à la fin de son séjour, lui permettant d’évaluer sa satisfaction. Comparer la satisfaction moyenne avant et après l’implémentation du processus d’enregistrement avec l’IA.

Becca dispose désormais d’un moyen concret de démontrer l’impact de son projet.

Résolution des défis posés par les données

Après avoir défini les exigences de son projet, Becca termine de résoudre les principaux défis posés par les données. Il s’agit généralement de problèmes de qualité, d’obstacles à l’intégration, de lacunes dans les données et parfois même d’une infrastructure de données obsolète. Becca sait que si elle ne résout pas les problèmes dès le début, le nouveau projet d’IA de Coral Cloud pourrait reposer sur des données peu fiables ou inexactes.

Becca a considérablement fait avancer son projet ! Elle gère les données comme une véritable professionnelle. Dans l’unité suivante, découvrez comment Becca évalue les risques de son projet d’IA et implémente le projet de manière fiable et responsable.

Ressources

Partagez vos commentaires sur Trailhead dans l'aide Salesforce.

Nous aimerions connaître votre expérience avec Trailhead. Vous pouvez désormais accéder au nouveau formulaire de commentaires à tout moment depuis le site d'aide Salesforce.

En savoir plus Continuer à partager vos commentaires