Évaluation d’un modèle

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Expliquer ce que sont les modèles et d’où ils proviennent
Expliquer pourquoi vous utilisez des métriques de modèle pour comprendre la qualité des modèles

Modèles, variables et observations

Pour résumer ce que vous avez appris plus tôt dans ce module, un modèle est une construction mathématique sophistiquée et personnalisée reposant sur une compréhension statistique exhaustive des résultats passés. Einstein Discovery génère (entraîne) un modèle s’appuyant sur des données. Einstein utilise ce modèle pour produire des connaissances de diagnostic et comparatives. Après avoir déployé un modèle en production, vous pouvez l’utiliser pour déduire des prédictions et des améliorations à partir de vos données live (nous vous en dirons plus à ce sujet plus tard !).

Variables

Intéressons-nous donc en détail aux modèles. Tout d’abord, il est utile de savoir qu’un modèle classe les données en variables. Une variable est une catégorie de données. Cela correspond à une colonne dans un jeu de données CRM Analytics ou à un champ dans un objet Salesforce. Un modèle contient deux types de variables : les données d’entrée (variables prédictives) et les données de sortie (prédictions).

Observations

Les prédictions sont générées au sein des observations. Une observation est un jeu de données structuré. Cela correspond à une ligne renseignée dans un jeu de données CRM Analytics ou à un enregistrement dans un objet Salesforce.

Illustration montrant un modèle acceptant des variables prédictives comme données d’entrée et produisant une prédiction comme donnée de sortie

Pour chaque observation, le modèle accepte un seul ensemble de variables prédictives comme données d’entrée (1) et renvoie une prédiction correspondante (2) comme donnée de sortie. Sur demande, le modèle peut également renvoyer les principaux prédicteurs et principales améliorations. Dans cette illustration, le résultat observé (IsWon) n’est pas encore connu.

Les modèles sont partout

Les modèles ne sont pas propres à Einstein Discovery ou à Salesforce. En fait, les modèles prédictifs sont largement utilisés dans le monde entier (dans de nombreux secteurs d’activité, organisations et disciplines) et ils sont impliqués dans de nombreux aspects de la vie quotidienne. Les data scientists et autres spécialistes mettent en application leur formidable savoir-faire pour concevoir et construire des modèles de haute qualité capables de générer des prédictions très précises et utiles.

Cependant, de nombreuses organisations se trouvent confrontées au même défi : une fois construit, un modèle bien conçu peut être difficile à implémenter dans les environnements de production et à intégrer de façon fluide aux opérations qu’il est censé faciliter. Avec Einstein Discovery, vous pouvez désormais rapidement mettre en œuvre vos modèles : créez-les, déployez-les en production, puis commencez sans attendre à obtenir des prédictions et à prendre de meilleures décisions commerciales grâce aux données live. Vous pouvez même mettre en œuvre des modèles créés en externe que vous chargez dans Einstein Discovery.

Caractéristiques d’un modèle de qualité

Bien entendu, si vous comptez fonder vos décisions commerciales sur les prédictions générées par votre modèle, il faut que celui-ci soit extrêmement efficace pour prédire des résultats. Au minimum, vous voulez que votre modèle prédise plus efficacement les résultats que ce que vous pourriez faire en son absence (à savoir vous contenter de simplement les estimer, ce qui débouche sur des prises de décision ne tenant pas compte des données !)

Alors, en quoi reconnaît-on un modèle efficace ? De manière générale, un modèle efficace répond aux exigences de votre solution en générant des prédictions suffisamment précises pour appuyer vos objectifs d’amélioration des résultats. En bref, vous voulez savoir dans quelle mesure les résultats prédits par un modèle correspondent aux résultats observés.

Pour vous aider à déterminer si votre modèle fonctionne bien, Einstein Discovery fournit des métriques de modèle qui présentent des mesures courantes de performance du modèle. (Les data scientists les connaissent sous le nom de statistiques d’ajustement, qui quantifient dans quelle mesure les prédictions de votre modèle correspondent bien aux données réelles.) N’oubliez pas que les modèles sont des approximations abstraites du monde réel. Ainsi, dans une certaine mesure, tous les modèles sont inévitablement inexacts. D’ailleurs, le fait qu’un modèle soit présenté comme étant « parfait » doit éveiller vos soupçons, et non vous donner de l’espoir (nous y reviendrons plus tard).

Lorsque l’on pense aux modèles, il est utile de prendre en considération une citation courante, attribuée au statisticien George Box : « Tous les modèles sont faux, mais certains d’entre eux sont utiles. »

Découvrons donc à quel point votre modèle peut être utile.

Découverte des performances du modèle

Dans Einstein Discovery, les performances du modèle présentent des mesures de qualité et des informations relatives à un modèle. Les performances du modèle vous aident à évaluer la capacité d’un modèle à prédire un résultat. Les métriques de performances du modèle sont calculées à l’aide des données du jeu de données CRM Analytics utilisé pour entraîner votre modèle. Pour chaque observation figurant dans le jeu de données qui a un résultat connu (observé), Einstein Discovery calcule une prédiction, puis compare le résultat prédit au résultat réel pour déterminer sa précision.

Important : Einstein Discovery fournit de nombreuses métriques différentes pour décrire le modèle qui a été créé pour vous. Elles sont à vrai dire bien trop nombreuses pour être toutes évoquées dans ce module. Ne vous inquiétez pas, vous n’avez pas besoin de toutes les connaître, ni même de connaître la plupart d’entre elles. Nous n’abordons ici que les plus importantes.

En fournissant un ensemble exhaustif de métriques, Einstein Discovery rend votre modèle totalement transparent, avec de nombreuses façons d’évaluer les performances sous différents angles. De cette façon, vous pouvez évaluer la qualité du modèle à l’aide des métriques les plus pertinentes pour votre solution, y compris celles qui ne sont pas traitées dans cette unité.

Einstein Discovery vous aide également à interpréter ces métriques sans avoir besoin de comprendre toutes les nuances et tous les calculs mathématiques impliqués. Si vous souhaitez en savoir plus sur une métrique ou un écran donné non traité dans ce module, cliquez sur l’info-bulle ou sur En savoir plus Lien En savoir plus .

Vue d’ensemble des performances du modèle

La page des performances du modèle est la première qui s’affiche lorsque vous ouvrez votre modèle. Elle vous sert à évaluer la qualité de votre modèle.

Écran Vue d’ensemble des métriques du modèle relatif aux modèles de classification binaire

Remarque : des métriques de modèle différentes sont employées selon que le cas d’utilisation soit relatif à une classification numérique ou binaire. Dans ce module, nous nous intéressons aux métriques de modèle permettant de maximiser isWon, dans le cadre d’un cas d’utilisation relatif à une classification binaire.

Le panneau de gauche (1) présente :

des accès vers les sections Modèle ;
les connaissances des données et les signets ;
des liens vers d’autres actions.

Le panneau Chemin vers le déploiement (2) affiche les sections suivantes :

Vérifier la précision du modèle : dans le cadre des solutions de classification binaire, la statistique Aire sous la courbe (AUC) est souvent celle que les data scientists regardent en premier pour évaluer la qualité du modèle. Notre objectif est de disposer d’une AUC supérieure à 0,5 (chance aléatoire) et inférieure à 1,0 (une prédiction parfaite, qui indique généralement un problème de fuite de données). Notre modèle a une valeur AUC de 0,8183, qui se situe dans la bonne fourchette.
Remarque : il existe une métrique comparable pour les modèles numériques, R^2, qui mesure la capacité d’un modèle de régression à expliquer la variation du résultat. R^2 va de zéro (chance aléatoire) à un (modèle parfait). En général, plus R^2 est élevé, plus le modèle est efficace pour prédire des résultats.
Définir un seuil : pour les modèles de classification binaire, le seuil est la valeur qui détermine si une prédiction est classée comme vraie ou fausse en fonction du score de prédiction (un nombre compris entre 0 et 1). Dans notre exemple, si le score de prédiction est égal ou supérieur à 0,4654, le résultat prédit est TRUE. Nous n’aborderons pas de manière approfondie les seuils dans le cadre de ce module. Retenez simplement que, selon les exigences de votre solution, vous pouvez ajuster votre modèle pour favoriser un résultat plutôt qu’un autre.
Évaluer la préparation au déploiement : Einstein Discovery effectue une vérification de la qualité du modèle et signale ici les problèmes détectés. Votre exemple ne présente pas d’alertes de données, car vous les avez déjà résolues dans une unité précédente.

Le panneau Données d’entraînement et modèle (3) affiche les sections suivantes :

Distribution de variable de résultat : indique le nombre de valeurs TRUE et FALSE observées (résultats observés) dans les données d’entraînement.
Principaux prédicteurs : affiche les variables prédictives présentant la plus forte corrélation avec le résultat. Dans nos données échantillon, la variable Type d’opportunité présente la corrélation la plus élevée, suivie de la variable Secteur d’activité.

Examen de la prédiction

Cliquez sur l’onglet Examen de la prédiction.

Écran Examen de la prédiction pour le modèle

Le panneau Prédiction Einstein situé à droite compare, pour la ligne sélectionnée dans les données d’entraînement, le résultat prédit au résultat observé, ainsi qu’aux principaux facteurs qui ont contribué au résultat prévu. Cliquez sur n’importe quelle ligne pour mettre à jour ce panneau.

Cet écran s’apparente à un essai sur route : il s’agit d’un aperçu utile de la façon dont le modèle prédira les résultats après son déploiement. L’AUC a fourni une mesure agrégée du modèle, mais cet écran vous permet d’explorer et d’analyser les prédictions de vos modèles de manière interactive.

Remarque : comme Einstein Discovery prélève un échantillon aléatoire des données du jeu de données, les données sur votre écran seront différentes de celles figurant sur cette capture d’écran.

Exploration des prévisions et des améliorations

Tirons parti de la puissance d’Einstein Discovery pour prédire l’avenir. Dans cette section, vous allez mettre Einstein au travail en sélectionnant un scénario et en lui demandant de calculer des résultats futurs statistiquement probables et des suggestions sur la façon d’améliorer ces résultats.

Remarque : cette unité s’intéresse à l’utilisation de votre modèle pour explorer des prédictions et des améliorations reposant sur des hypothèses. Plus tard, vous apprendrez à déployer votre modèle dans Salesforce pour obtenir des prédictions et des améliorations concernant vos enregistrements actuels.

Dans la barre de navigation de gauche, cliquez sur Prédictions.

Panneau de navigation de la barre latérale gauche avec Prédictions mis en évidence

Le panneau de droite vous permet de sélectionner les données d’entrée du modèle.

Le panneau Sélectionner un groupe à prédire, dans lequel vous sélectionnez les données d’entrée du modèle

Sous Sélectionner un groupe à prédire, dans Type d’opportunité, sélectionnez Nouvelle activité/Nouveau complément et dans Secteur d’activité, sélectionnez Banque (1). Sélectionnez le bouton Actionnable à côté de Origine de la piste (2) pour voir les améliorations.

Sur la page principale, les panneaux suivants s’affichent (vous devrez peut-être faire défiler l’écran vers le bas pour tous les voir).

Prédiction Einstein (1) affiche le score de prédiction de vos sélections. Dans cet exemple, le résultat prédit est IsWon : True.
Principales améliorations (2) présente des actions suggérées que vous pouvez entreprendre pour améliorer le résultat prédit. Dans cet exemple, le fait de modifier l’origine de la piste associée à l’opportunité en Référent partenaire améliore le résultat prévu de 0,067.
Vue d’ensemble du modèle (3) affiche les métriques de qualité relatives à votre modèle.
Principaux facteurs de prédiction (4) montre les variables explicatives, favorables et défavorables, qui sont le plus fortement associées au résultat prédit. Dans notre exemple, Type d’opportunité est Nouvelle activité/Nouveau complément améliore le résultat prédit de 14,18 %.
Connaissances (5) affiche des connaissances supplémentaires associées à votre sélection.

Et maintenant ?

Maintenant que vous avez évalué le modèle, examinons les connaissances issues des données.

Ressources

Aide Salesforce : Évaluer la qualité du modèle

Durée estimée

Thèmes

Besoin d'aide ?

Ressources CRM Analytics

Ressources Einstein