モデルを作成する
学習の目的
この単元を完了すると、次のことができるようになります。
- Einstein Discovery モデルの概要とこのモデルを使用する理由を説明する。
- Einstein Discovery モデルの主な要素について説明する。
- Einstein Discovery でモデルを設定して作成する。
モデルとは?
モデルは、過去の結果に対する包括的かつ統計的な理解に基づく高度なカスタム等式で、将来の結果の予測に使用します。Einstein Discovery モデルは、パフォーマンスメトリクス、設定、予測、データインサイトのコレクションです。Einstein Discovery にモデルを作成する手順が表示されますが、この手順は、改善したい結果 (各自のモデルの目標)、その目的に向けて (CRM Analytics データセットで) 収集したデータ、Einstein Discovery に分析の実施方法や結果の通知方法を指示するその他の設定によって異なります。
モデルを作成する
ここでは、前の単元で準備した CRM Analytics データセットを使用して予測モデルを作成する方法を説明します。
- 前の単元で読み込んだデータが引き続き表示されている場合は、[Create Model (モデルを作成)] をクリックしてステップ 4 に進みます。表示されていない場合は、Analytics Studio のホームページで、[Create (作成)] をクリックし、[Model (モデル)] を選択します。
- [New Model (新しいモデル)] 画面で、[Create from Dataset (データセットから作成)] をクリックし、[Continue (続行)] をクリックします。
- 前の単元で作成した [opportunity_history] データセットを選択して、[Next (次へ)] をクリックします。
- [モデルを作成] 画面で、目標を指定します。この目標から、予測を行うために分析してモデルをトレーニングする結果が定義されます。この結果を最大化するのか最小化するのかを指定します。
このモジュールの目標は、商談成立を最大化することです。[次を予測したい] で、[IsWon] を選択し、[最大化] の横の項目を [IsWon:TRUE] に変更します。他はすべてデフォルト設定を受け入れ、[次へ] をクリックします。
- [Configure Model Columns (モデル列を設定)] 画面で、デフォルト ([Automated (自動)]) を受け入れ、[Create Model (モデルを作成)] をクリックします。
統計分析、機械学習アルゴリズム、AI を駆使したデータ分析が開始され、予測モデルが構築されます。
終了すると、モデルのパフォーマンスの概要が表示されます。
データ品質アラートを調査する
Einstein Discovery は分析時とトレーニング時に、データに重複の影響 (多重共線性データアラートという)、潜在的なバイアス、欠落頻度の高い値といった品質上の問題がないか検証します。データ品質の潜在的な問題が検出されると、データアラートで通知されます。データアラートについての詳細は、「品質アラートの処理」を参照してください。
モデルのパフォーマンスの概要で、[リリース準備状況を評価する] を確認し、[すべてのアラートを表示] ボタンをクリックして、モデルのすべてのアラートを検証します。
[データアラート] パネルに生成された各アラートが表示され、アクションを実行するか無視するかを選択できます。このモデルで、データの多重共線性が検出されました。この問題は、2 つ以上の変数 (金額とリードソース) の相関関係が高いため、結果に重複した影響が及ぶ可能性があることです。このモジュールでは、[金額] と [リードソース] で [アラートを無視] を選択して先に進みます。
また、商談の金額の問題が検出され、値をバケットで層化することが提案されました。[Suggested Buckets (推奨バケット)] で、[Apply the new buckets (新しいバケットを適用)] を選択します。
モデルバージョンを作成する
[次へ] をクリックします。Einstein Discovery に、新しいモデルバージョンを説明するためのプロンプトが表示されます。
モデルを変更するたびに、新しいバージョンを作成して分析を再度実行し、モデルを再トレーニングする必要があります。この例では、Einstein が最新の設定を使用してデータを分析し直す必要があるため、新しいバージョンが必要です。このモジュールで前述したとおり、Einstein Discovery ソリューションの開発は反復的なプロセスです。モデルバージョンを作成すれば、各変更を追跡することができます。
ボックスに、Ignore multicollinearity alerts and apply buckets to Amount
(多重共線性アラートを無視して、金額にバケットを適用) と入力し、[モデルをトレーニング] をクリックします。
新バージョンのモデルが再度分析され、再トレーニングされます。新バージョンが完成すると、モデルのパフォーマンスの概要がもう一度表示されます。新しいバージョンには、新しいバージョン番号が表示され、確認すべきアラートがありません。
モデル設定を編集する
モデルのカスタマイズを始める場合は、[Settings (設定)] をクリックします。
ここで、モデルの設定を検証できます。
データセットの詳細
各自のデータセットの行数と列数が示されます (1)。Einstein Discovery ではデータセットの各行を観測、各列を変数といいます。
変数テーブル
変数テーブル (2) にはモデルの変数が表示されます。
- 1 つ目の変数 (IsWon) は結果変数で、改善しようとしているビジネス上の結果です。ここでの目標は IsWon を最大にすることです。
- その後に説明変数が続きます。各変数を検証して、モデルの結果変数への影響の有無とその程度を判断します。
-
重要度は、モデルの予測結果に対する変数の相対的な影響度で、結果の予測時にモデルが変数を使用する度合を示します。重要度はパーセントで定量化されます。パーセントが高いほど、影響が大きいことになります。重要度は、変数間の相互作用を検討する高度なメトリクスです。2 つの変数に高い相関関係があり、類似する情報が含まれている場合、モデルはより適切な変数を選択して使用します。
- 列のドロップダウンを使用して、重要度ではなく、相関関係を表示します。相関関係は、説明変数と結果変数間の統計的な結び付きで、「相互に関係があること」を表します。相関関係の強度はパーセントで定量化され、パーセントが高いほど相関関係が強いことになります。相関関係は因果関係ではありません。相関関係は、単に変数間の結び付きの強さを説明するもので、相互に因果的な影響があるかどうかを示すものではありません。相関関係については、この項目が単独で結果をどの程度予測可能かを測定する値と考えることができます。
- データアラートは、特に注意を要する潜在的な問題が検出されたときに表示されます。
一般設定
右側のパネルは [一般設定] (3) で、このモデルで使用するデータセットが表示されます。モデルの妥当性とアルゴリズムを表示して、場合によっては変更することもできます。
変数設定を編集する
変数テーブルで、[業種] をクリックします。右パネルで、選択した変数を設定します。
- この変数を使用するとバイアスがかかる可能性があると思われる場合、[バイアスの分析] (1) を選択すると、Einstein Discovery のバイアス検出機能が有効になります。詳細は、「Einstein Discovery を使用した倫理的なモデル開発: クイックルック」を参照してください。
- 分析中にこの変数の値を変換する場合は、[変換] オプション (2) を選択します。あいまい一致、センチメント検出、テキストのクラスター化、欠損値の置換などのオプションがあります。変換によって変更されるのはモデルのデータのみで、データセットの値は変更されません。たとえば、あいまい一致でテキスト値のわずかな差異 (スペルミスや誤字など) が修正されるため、正確に分類されるようになり、予測精度が向上します。
-
[次のみを含める] (3) には、変数に関連付けられている値が頻度の高い順に表示されます。値の横にあるチェックボックスをオフにすると、分析からその値が除外されるか、その値が [その他] のグループにマージされます。
-
[ヒストグラム] (4) は、各値がデータセットに出現した頻度を示します。
モデルを利用して他にできること
上記以外に、モデルで次のことも実行できます。
- バージョン履歴を表示して、別のバージョンに移動する。
- インサイトグラフをブックマークする。
- 別のモデルと比較する。
- R コードを表示してコピーする。
- モデルの名前を変更する。
- モデルを保存するアプリケーションを変更する。
- モデルを削除する。
次のステップ
この単元では、モデルを作成し、データアラートを解消して、モデルの新しいバージョンを作成しました。次の単元では、モデルを評価します。
リソース