Skip to main content
Build the future with Agentforce at TDX in San Francisco or on Salesforce+ on March 5–6. Register now.

Transformation de données en modèles

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

  • Expliquer les différences entre les algorithmes créés manuellement et les modèles entraînés
  • Définir ce qu’est l’apprentissage automatique et quel est son lien avec l’IA
  • Faire la distinction entre les données structurées et non structurées et leurs incidences respectives sur l’entraînement

Trailcast

Pour écouter un enregistrement audio de ce module, utilisez le lecteur ci-dessous. Lorsque vous avez fini d’écouter cet enregistrement, n’oubliez pas de revenir à chaque unité, de consulter les ressources et de réaliser les évaluations associées.

Le secret de la magie

Les capacités de l’IA peuvent s’apparenter à de la magie. C’est pourquoi il est naturel de vouloir jeter un coup d’œil derrière le « rideau du magicien » pour comprendre les procédés impliqués. Ce faisant, vous découvrirez qu’en lieu et place des miroirs et des subterfuges, des informaticiens et des chercheurs utilisent de grandes quantités de données, de calculs mathématiques et de puissance de calcul. En apprenant comment l’IA fonctionne réellement, vous pourrez utiliser son plein potentiel, tout en évitant les écueils dus à ses limites.

Le passage de l’élaboration à l’entraînement

Pendant des décennies, les programmeurs ont écrit du code qui accepte une entrée, la traite à l’aide d’un ensemble de règles et renvoie une sortie. Par exemple, voici comment trouver la valeur moyenne d’un ensemble de chiffres.

  • Entrée : 5, 8, 2, 9 
  • Processus : additionnez les valeurs [5 + 8 + 2 + 9], puis divisez le résultat par le nombre d’entrées [4]
  • Sortie :

Cet ensemble simple de règles permettant de transformer une entrée en une sortie est un exemple d’algorithme. Il existe des algorithmes permettant d’effectuer des tâches relativement sophistiquées. Toutefois, certaines tâches sont associées à tellement de règles (et d’exceptions) qu’il est impossible de toutes les faire figurer dans un algorithme créé manuellement. La natation est un bon exemple d’une tâche difficile à résumer en un ensemble de règles. Il se peut que l’on vous donne quelques conseils avant que vous ne sautiez dans la piscine, mais vous saurez réellement ce qui fonctionne une fois que vous essaierez de garder la tête hors de l’eau. Dans certains cas, l’expérience est la meilleure des écoles.

Alors, qu’en serait-il si nous pouvions entraîner un ordinateur de la même manière ? Non pas en le jetant dans une piscine, bien entendu, mais en le laissant découvrir les manières d’accomplir une tâche avec succès ? Toutefois, tout comme l’apprentissage de la natation est très différent de l’apprentissage d’une langue étrangère, le type d’entraînement adéquat dépend de la tâche ciblée. Examinons donc quelques-unes des façons dont l’IA est entraînée.

Expérience exigée

Imaginez qu’à chaque fois que vous vous rendez au supermarché pour acheter du lait, vous consigniez les détails de votre trajet dans une feuille de calcul. C’est un peu étrange, mais jouez le jeu. Vous créez les colonnes suivantes.

  • Jour de week-end ou non
  • Moment de la journée
  • Temps pluvieux ou non
  • Distance jusqu’au supermarché
  • Durée totale (en minutes) de la sortie

Après plusieurs trajets, vous commencez à avoir une idée de la façon dont les conditions ont une incidence sur le temps qu’il vous faut au total pour faire vos courses. Par exemple, le fait qu’il pleuve rend le temps de trajet plus long, mais signifie également que moins de personnes font leurs courses. Votre cerveau établit des relations entre les entrées (week-end [W], moment de la journée [T], pluie [R], distance [D]) et la sortie (minutes [M]).

Diagramme des entrées [W, T, R, D]

Maintenant, comment pourrions-nous faire en sorte qu’un ordinateur remarque les tendances dans les données pour qu’il puisse également établir une estimation ? Une solution consiste à appliquer la méthode « deviner et vérifier ». Voici comment procéder.

Étape 1 : attribuez une pondération à toutes vos entrées. Il s’agit d’un nombre qui représente dans quelle mesure une entrée doit avoir une incidence sur la sortie. Vous pouvez commencer par attribuer la même pondération à chaque entrée.

Étape 2 : appliquez les pondérations à vos données existantes (et effectuez quelques savants calculs que nous n’aborderons pas ici) afin d’estimer le nombre de minutes nécessaires pour aller acheter du lait. Nous pouvons comparer l’estimation aux données historiques. Il y aura une grande différence entre elles, mais ce n’est pas un problème.

Étape 3 : laissez l’ordinateur deviner une nouvelle pondération plus ou moins importante pour chaque entrée. Par exemple, le moment de la journée où vous allez faire vos courses peut avoir plus d’importance que le fait qu’il pleuve ou non.

Étape 4 : réexécutez les calculs pour vérifier si les nouvelles pondérations permettent d’obtenir une meilleure estimation. Si c’est le cas, cela signifie qu’elles sont mieux ajustées et s’améliorent petit à petit.

Étape 5 : répétez les étapes 3 et 4, en laissant l’ordinateur ajuster les pondérations jusqu’à ce que ses estimations ne s’améliorent plus.

À ce stade, l’ordinateur a défini des pondérations pour chaque entrée. Si vous considérez la pondération comme le facteur indiquant à quel point une entrée a une incidence sur la sortie, vous pouvez créer un diagramme qui emploie des traits d’épaisseurs variées pour représenter l’importance d’une relation.

Diagramme représentant des nœuds d’entrée liés à une sortie.

Dans cet exemple, il semble que le moment de la journée soit le facteur ayant le plus d’incidence, mais que la pluie n’a pas beaucoup d’impact.

Ce processus de type « deviner et vérifier » a permis de créer un modèle se rapportant à nos sorties d’achat de lait. Tout comme on le ferait pour une maquette de bateau, nous pouvons l’amener à la piscine pour voir s’il « flotte », en quelque sorte. Cela signifie le tester en situation réelle. Alors, les prochaines fois que vous sortez acheter du lait, utilisez le modèle au préalable afin d’estimer le temps que cela vous prendra. Si l’estimation est correcte suffisamment de fois d’affilée, vous pourrez utiliser le modèle en toute confiance à chaque fois que vous irez faire de telles courses.

Un robot devant un plan de travail en train d’assembler les pièces d’une petite maquette de voilier. L’image est dessinée dans un style reprenant celui des illustrations vectorielles en 2D.

[Image générée par l’IA à l’aide de DreamStudio sur stability.ai avec l’invite suivante : « Un robot devant un plan de travail en train d’assembler les pièces d’une petite maquette de voilier. L’image est dessinée dans un style reprenant celui des illustrations vectorielles en 2D. »]

Utilisation de données adaptées pour chaque tâche

Il s’agit là certes d’un exemple très simple d’utilisation de l’entraînement pour créer un modèle d’IA, mais il aborde des notions importantes. Tout d’abord, il s’agit d’un exemple d’apprentissage automatique, qui consiste à utiliser de grandes quantités de données pour entraîner un modèle à faire des prédictions, au lieu de créer un algorithme manuellement.

Ensuite, toutes les données ne sont pas identiques. Dans notre exemple de sorties pour aller acheter du lait, la feuille de calcul représente des données structurées. Elle est bien organisée : chaque colonne dispose d’un titre, ce qui vous permet de savoir à quoi correspond chacune des cellules. À l’inverse, des données non structurées seraient par exemple un article d’actualité ou un fichier image sans étiquette. Le type de données dont vous disposez déterminera le type d’entraînement que vous pourrez réaliser.

Enfin, les données structurées de notre feuille de calcul permettent aux ordinateurs d’effectuer un apprentissage supervisé. On le dit « supervisé », car nous pouvons nous assurer que chaque donnée d’entrée est associée à une sortie attendue que nous pouvons vérifier. Inversement, les données non structurées sont utilisées pour l’apprentissage non supervisé, dans le cadre duquel l’IA essaie de trouver des relations dans les données sans vraiment savoir ce qu’elle recherche.

Le fait de laisser l’ordinateur déterminer une pondération spécifique pour chaque entrée ne représente qu’un type particulier de méthode d’entraînement. Toutefois, les systèmes interconnectés présentent souvent un niveau de complexité tel que la pondération individuelle ne permet pas de représenter leur fonctionnement. Heureusement, comme vous l’apprendrez dans l’unité suivante, il existe d’autres manières d’entraîner un modèle !

Partagez vos commentaires sur Trailhead dans l'aide Salesforce.

Nous aimerions connaître votre expérience avec Trailhead. Vous pouvez désormais accéder au nouveau formulaire de commentaires à tout moment depuis le site d'aide Salesforce.

En savoir plus Continuer à partager vos commentaires