Bewerten eines Modells
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Erläutern, was ein Datenmodell ist und woher es stammt
- Beschreiben, warum Sie Modellkennzahlen zum Verstehen der Modellqualität verwenden
Modelle, Variablen und Beobachtungen
Lassen Sie uns noch einmal wiederholen, was Sie in diesem Modul gelernt haben: Ein Modell ist ein durchdachtes, maßgeschneidertes mathematisches Konstrukt, das auf einem umfassenden, statistischen Verständnis bisheriger Ergebnisse beruht. Einstein Discovery erstellt (trainiert) ein Modell auf der Grundlage der Daten. Einstein erstellt mithilfe des Modells diagnostische und vergleichende Statistiken. Nachdem Sie ein Modell in der Produktion bereitgestellt haben, können Sie es nutzen, um Prognosen und Verbesserungsvorschläge für Ihre Live-Daten abzuleiten (mehr dazu später).
Variablen
Lassen Sie uns also Modelle nun weiter erkunden. Zunächst ist es hilfreich zu wissen, dass ein Modell Daten nach Variablen organisiert. Eine Variable ist eine Datenkategorie. Sie entspricht einer Spalte in einem CRM Analytics-Datenset oder einem Feld in einem Salesforce-Objekt. Ein Modell hat zwei Arten von Variablen: Eingaben (Prädiktorvariablen) und Ausgaben (Prognosen).
Beobachtungen
Prognosen erfolgen auf Beobachtungsebene. Eine Beobachtung ist eine strukturierte Datenmenge. Sie entspricht einer ausgefüllten Zeile in einem CRM Analytics-Datenset oder einem Datensatz in einem Salesforce-Objekt.
Für jede Beobachtung akzeptiert das Modell eine Reihe von Prädiktorvariablen als Eingabe (1) und gibt eine entsprechende Prognose (2) als Ausgabe zurück. Auf Anforderung kann das Modell auch die besten Prädiktoren und Verbesserungsvorschläge liefern. In dieser Abbildung ist das tatsächliche Ergebnis (IsWon) noch nicht bekannt.
Modelle sind überall
Modelle gibt es nicht nur für Einstein Discovery oder Salesforce. Tatsächlich werden Prognosemodelle auf der ganzen Welt ausgiebig genutzt, und zwar branchen-, organisations- und disziplinenübergreifend, und sind an vielen Aspekten des täglichen Lebens beteiligt. Data Scientists und andere Spezialisten bringen ihre Fähigkeiten ein, um hochwertige Modelle zu entwerfen und zu erstellen, die sehr genaue und nützliche Prognosen liefern können.
Viele Organisationen stehen jedoch vor dem Problem, dass ein sorgfältig ausgearbeitetes Modell nur schwierig in Produktionsumgebungen implementiert und nahtlos in die Vorgänge eingebunden werden kann, für die es gedacht ist. Mit Einstein Discovery lassen sich Ihre Modelle jetzt schnell operationalisieren: Sie können sie erstellen, in der Produktion bereitstellen und dann sofort damit beginnen, auf Grundlage von Live-Daten Prognosen zu erstellen und bessere Geschäftsentscheidungen zu treffen. Sie können sogar extern erstellte Modelle operationalisieren, die Sie in Einstein Discovery hochladen.
Was ist ein gutes Modell?
Wenn Ihre Geschäftsentscheidungen auf den Prognosen Ihres Modells beruhen sollen, benötigen Sie natürlich ein Modell, das Ergebnisse wirklich gut vorhersagen kann. Zumindest wünschen Sie sich ein Modell, das die Ergebnisse besser vorhersagt als bei Fehlen eines Modells, weil Sie dann einfach nur willkürlich raten, was zu einer Entscheidungsfindung ohne Berücksichtigung von Daten führt!
Was also macht ein Modell gut? Im Allgemeinen erfüllt ein gutes Modell die Anforderungen an eine Lösung, indem es Prognosen erstellt, die hinreichend genau sind, um Ihre Ziele für die Verbesserung von Ergebnissen zu unterstützen. Einfach ausgedrückt, möchten Sie wissen, wie genau die prognostizierten Ergebnisse eines Modells mit den tatsächlichen Ergebnissen übereinstimmen.
Damit Sie feststellen können, wie gut Ihr Modell funktioniert, bietet Einstein Discovery Modellkennzahlen, die gängige Messwerte der Modellleistung visualisieren. (Data Scientists nennen diese Kennzahlen Anpassungsstatistiken, die quantifizieren, wie gut die Prognosen Ihres Modells mit den realen Daten übereinstimmen.) Denken Sie daran, dass Modelle abstrakte Annäherungen an die reale Welt sind, sodass alle Modelle zwangsläufig zu einem gewissen Grad ungenau sind. Tatsächlich sollte ein "perfektes" Modell Ihr Misstrauen wecken, nicht Ihre Hoffnung (mehr dazu später).
Wenn Sie sich mit Modellen beschäftigen, ist die häufig zitierte Aussage des Statistikers George Box hilfreich: "Alle Modelle sind falsch, aber einige sind nützlich."
Lassen Sie uns also herausfinden, wie nützlich Ihr Modell sein kann.
Untersuchen der Modellleistung
In Einstein Discovery gibt die Modellleistung Aufschluss über Qualitätsmesswerte und zugehörige Details für ein Modell. Die Modellleistung hilft bei der Beurteilung der Fähigkeit eines Modells, ein Ergebnis vorherzusagen. Kennzahlen für die Modellleistung werden anhand der Daten im CRM Analytics-Datenset berechnet, mit dem Sie Ihr Modell trainiert haben. Für jede Beobachtung im Datenset, für die ein bekanntes (beobachtetes oder tatsächliches) Ergebnis vorliegt, berechnet Einstein Discovery eine Prognose und vergleicht dann das vorhergesagte Ergebnis mit dem tatsächlichen Ergebnis, um die Prognosegenauigkeit zu ermitteln.
Wichtig: Einstein Discovery bietet viele verschiedene Kennzahlen, um das für Sie erstellte Modell zu beschreiben – eigentlich viel zu viele, um sie in diesem Modul zu behandeln. Aber keine Sorge. Sie müssen nicht alle oder nicht einmal die meisten davon kennen. Wir gehen hier nur auf die wichtigsten ein.
Durch das Bereitstellen einer umfassenden Reihe von Kennzahlen macht Einstein Discovery Ihr Modell vollkommen transparent und bietet viele Möglichkeiten, die Leistung aus verschiedenen Blickwinkeln zu bewerten. Auf diese Weise können Sie die Modellqualität anhand der Kennzahlen beurteilen, die für Ihre Lösung am sinnvollsten sind, einschließlich derjenigen, die nicht in dieser Einheit behandelt werden.
Einstein Discovery hilft Ihnen auch bei der Interpretation dieser Kennzahlen, ohne dass Sie alle Feinheiten und die mathematischen Zusammenhänge verstehen müssen, die mit der Berechnung dieser Kennzahlen verbunden sind. Wenn Sie mehr über eine bestimmte Kennzahl oder einen Bildschirm erfahren möchten, die bzw. der in dieser Einheit nicht behandelt wird, klicken Sie auf die Infoblase oder auf "Weitere Infos" .
Übersicht über die Modellleistung
Die Modellleistung ist die erste Seite, die Sie beim Öffnen Ihres Modells sehen. Anhand dieser Seite können Sie die Modellqualität beurteilen.
Hinweis: Für numerische und binäre Klassifizierungsanwendungsfälle gelten unterschiedliche Kennzahlen. In diesem Modul konzentrieren wir uns auf die Modellkennzahlen, um "isWon" zu maximieren, einen Anwendungsfall der binären Klassifizierung.
Im linken Bereich (1) wird Folgendes gezeigt:
- Navigation zu Modellabschnitten
- Datenstatistiken und Lesezeichen
- Links zu anderen Aktionen
Im Bereich "Pfad zur Bereitstellung" (2) wird Folgendes gezeigt:
-
Modellgenauigkeit überprüfen: Bei binären Klassifizierungslösungen schauen Data Scientists oft zuerst auf die Statistik "Fläche unter der Kurve" (Area Under the Curve, AUC), um die Modellqualität zu beurteilen. Unser Ziel ist ein AUC-Wert, der größer als 0,5 (nicht besser als der Zufall) und kleiner als 1,0 (eine perfekte Prognose, die normalerweise auf ein Datenleckproblem hinweist) ist. Unser Modell hat den AUC-Wert 0,8183, was im vorteilhaften Bereich liegt.
Hinweis: Eine vergleichbare Kennzahl für numerische Modelle ist R^2, die die Fähigkeit eines Regressionsmodells zur Erklärung der Variation im Ergebnis misst. R^2 liegt im Bereich von 0 (nicht besser als der Zufall) bis 1 (perfektes Modell). Im Allgemeinen gilt: je höher der R^2-Wert, desto besser prognostiziert das Modell Ergebnisse.
-
Schwellenwert festlegen: Bei binären Klassifizierungsmodellen ist der Schwellenwert der Wert, der bestimmt, ob eine Prognose auf Grundlage der Prognosebewertung, einer Zahl von 0 bis 1, als wahr oder falsch eingestuft wird. Wenn in unserem Beispiel die Prognosebewertung mindestens 0,4654 beträgt, ist das vorhergesagte Ergebnis WAHR. Eine eingehende Untersuchung von Schwellenwerten ist nicht Gegenstand dieses Moduls. Allerdings können Sie Ihr Modell je nach den Anforderungen Ihrer Lösung so abstimmen, dass ein bestimmtes Ergebnis einem anderen vorgezogen wird.
-
Bereitstellungsbereitschaft bewerten: Einstein Discovery führt eine Qualitätsprüfung des Modells durch und zeigt hier die gefundenen Probleme an. In Ihrem Beispiel gibt es keine Datenwarnungen, da Sie diese bereits in einer vorherigen Einheit behoben haben.
Im Bereich "Trainingsdaten und das Modell" (3) wird Folgendes angezeigt:
-
Verteilung der Ergebnisvariablen: Zeigt an, wie viele WAHR und FALSCH beobachtete Werte (tatsächliche Ergebnisse) in den Trainingsdaten enthalten sind.
-
Wichtigste Prädiktoren Zeigt die Prädiktorvariablen mit der höchsten Korrelation zum Ergebnis. In unseren Beispieldaten weist "Opportunity-Typ" die höchste Korrelation auf, gefolgt von "Branche".
Prognoseprüfung
Klicken Sie auf die Registerkarte Prognoseprüfung.
Im Bereich "Einstein-Prognose" auf der rechten Seite werden für die ausgewählte Zeile in den Trainingsdaten das prognostizierte Ergebnis mit dem tatsächlichen Ergebnis sowie die wichtigsten Faktoren verglichen, die zu dem prognostizierten Ergebnis beigetragen haben. Klicken Sie auf eine beliebige Zeile, um diesen Bereich zu aktualisieren.
Dieser Bildschirm ist wie eine Probefahrt: Es handelt sich um eine hilfreiche Vorschau, wie das Modell nach seiner Bereitstellung die Ergebnisse vorhersagen würde. Der AUC-Wert lieferte einen aggregierten Messwert für das Modell. Doch auf diesem Bildschirm können Sie die Vorhersagen Ihrer Modelle interaktiv analysieren.
Hinweis: Einstein Discovery greift auf eine Zufallsstichprobe der Daten im Datenset zurück, weshalb die Daten auf Ihrem Bildschirm von diesem Screenshot abweichen werden.
Erkunden von Prognosen und Verbesserungen
Lassen Sie uns die Möglichkeiten von Einstein Discovery nutzen, um Prognosen für die Zukunft zu erstellen. In diesem Abschnitt lassen Sie Einstein arbeiten, indem Sie ein Szenario auswählen und Einstein statistisch wahrscheinliche zukünftige Ergebnisse und Vorschläge zur Verbesserung des Ergebnisses berechnen lassen.
Hinweis: In dieser Lektion geht es um die Verwendung Ihres Modells zum Erkunden von Was-wäre-wenn-Prognosen und Verbesserungen. Später lernen Sie, wie Sie Ihr Modell in Salesforce bereitstellen, um Prognosen und Verbesserungen für Ihre aktuellen Datensätze zu erhalten.
Klicken Sie in der linken Navigationsleiste auf Prognosen.
Im Bereich auf der rechten Seite wählen Sie die Eingaben für das Modell aus.
Wählen Sie unter "Gruppe für die Prognose auswählen" für "Opportunity-Typ" den Eintrag Neugeschäft/Add-On und dann für "Branche" Bank aus (1). Klicken Sie auf das Optionsfeld "Handlungsrelevant" neben "Lead-Quelle" (2), um Verbesserungen zu sehen.
Sie sehen diese Bereiche auf der Hauptseite (möglicherweise müssen Sie nach unten blättern, um alles zu sehen).
-
Einstein-Prognose (1) zeigt die Prognosebewertung für Ihre Auswahl. Bei diesem Beispiel ist das prognostizierte Ergebnis "IsWon: Wahr.
-
Beste Verbesserungen (2) zeigt vorgeschlagene Aktionen, die Sie ausführen können, um das prognostizierte Ergebnis zu verbessern. In diesem Beispiel verbessert eine Änderung der Lead-Quelle der Opportunity zu "Partnerempfehlung" das prognostizierte Ergebnis um 0,067.
- Unter Modellübersicht (3) werden die Qualitätskennzahlen für Ihr Modell gezeigt.
-
Beste Prognosefaktoren (4) zeigt erklärende Variablen (vorteilhaft und ungünstig), die am stärksten mit dem prognostizierten Ergebnis verknüpft sind. In unserem Beispiel verbessert "Opportunity-Typ" gleich "Neugeschäft/Add-On" das prognostizierte Ergebnis um 14,18 %.
- Unter Statistiken (5) finden Sie weitere mit Ihrer Auswahl verknüpfte Statistiken.
Nächste Schritte
Nach der Modellbewertung sehen wir uns nun die Datenstatistiken an.
Ressourcen