説明的インサイトの理解

学習の目的

この単元を完了すると、次のことができるようになります。
  • ストーリーの説明的インサイトに移動して探索する。
  • 1 つの変数によって結果変数の変動がどのように説明されるかを示すインサイトを表示する。
  • 変数のペア (相互関係) によって結果変数の変動がどのように説明されるかを示すインサイトを表示する。

説明的インサイトについて

メモ

メモ

この単元の手順は、Einstein Discovery ストーリーを正常に作成済みであることを前提としています。この Trailhead モジュールの最初の単元「ストーリーを使用した全体像の把握」の手順を参照してください。

ストーリーの作成後、最初に表示されるインサイトは説明的インサイトです。説明的インサイトは、ストーリーのプライマリインサイトです。これは、結果に寄与した要因を概要レベルで調査するのに役立ち、データセットの統計分析に基づき、機械学習によって強化されています。Einstein Discovery では、棒グラフを使用して説明的インサイトを視覚化します。

ストーリーの結果変数と目標

ストーリーを設定したら、Einstein Discovery に対して、Acquired Account データの [CLV] 変数を最大化するよう指示します。CLV はストーリーの結果変数で、CLV を最大化することが目標です。このストーリーのどのインサイトも、異なる変数や変数の組み合わせによって CLV の変動がどのように説明されるかを表します。リストの上部にあるインサイトには、結果変数の統計的に有意な変動が反映されます。

メモ

メモ

t 検定

Tableau CRM データセットのカテゴリごとに、Einstein Discovery で t 検定という統計学的計算が行われ、そのカテゴリが統計的に有意かどうかが判定されます。t 検定により、他のカテゴリとは統計的に異なるパターンを示すカテゴリを特定することができます。たとえば、Naval (海軍) というカテゴリの場合、最初のステップは、データを Naval (海軍)Naval (海軍) 以外に分割することです。その次のステップは、t 検定を実行して、この 2 群が統計的に異なるかどうかを判断することです。

説明変数の相関関係の調査

[変数] パネルには、ストーリーの説明変数、および結果変数との相関関係 (%) がリストされます。 

変数とストーリーの目標との相関関係。この相関率は、説明変数と結果変数の間の統計的な関連付けの相対的な強さを表します。相関率が高いほど関係が強くなるため、調査への関心が高くなります。

このリストを一目見て、Einstein Discovery による Acquired Account データの分析について何がわかるでしょうか? Division (ディビジョン) が CLV の最大の変動 (14.16%) を説明する変数であることです。Einstein Discovery で統計学的計算が実行され、R2 (R 二乗) という決定係数が算定されます。R2 は、ディビジョンによって結果変数 (CLV) の変動がどの程度説明されるかを表します。つまり、ディビジョン変数にどの程度の予測力があるかということです。その他の考察では CLV に影響を及ぼす他の要因が説明されます。

2 つ目の変数のセットである Type (種類)、Rating (評価)、Industry (業種)、AccountScore (取引先スコア) は相関関係は弱いとはいえ、まだ調査する価値がありそうです。相関率が最も低い変数である AccountScore (取引先スコア)、BillingState (請求先都道府県)、StartDate (開始日)、Ownership (所有権)、CloseDate (完了予定日) は、現時点ではこれ以上考慮する必要はなさそうです。

メモ

メモ

相関関係は因果関係ではありませんので注意してください。相関関係は、単に変数間の関連付けの強度を説明します。変数が互いに因果的な影響を及ぼしているかどうかを説明するものではありません。

一次分析の表示

では、リストの最初のインサイトから見ていきましょう。

「CLV by Division (ディビジョン別 CLV)」インサイト

この種のインサイトを一次分析といい、1 つの変数 (ディビジョン) によって結果変数 (CLV) の変動がどのように説明されるかを検証します。

インサイトのさまざまな部分を見てみましょう。

説明テキスト

インサイトの左側には、説明テキストが含まれます。

インサイトの説明テキスト。説明テキストには、次が含まれます。

  • インサイトのタイトル: CLV by Division (ディビジョン別 CLV)
  • 変動が統計的に有意だった (平均より高いまたは低い) 最も重要な考察の要約のリスト (グラフの青いバーに関連付けられている)。

ハイパーリンクの上にマウスポインタを置くと、右側のグラフの関連付けられたバーが強調表示されます。

「CLV by Division (ディビジョン別 CLV)」インサイトハイパーリンクをクリックすると、選択した変数で絞り込まれたデータを表示する観察のグラフがドリルダウンされます。インサイトの上のブレッドクラムにはインサイトリストの検索条件が表示されます。

インサイトの絞り込まれたデータのグラフ。

メモ

メモ

検索条件を削除してすべてのインサイトを表示するには、ブレッドクラムで [概要] をクリックします。

グラフ

右側の棒グラフでこのインサイトが次のように視覚化されます。

インサイトのグラフ。

このグラフが示す内容は次のとおりです。

  • [CLV] が縦軸 (結果変数) です。
  • [Division (ディビジョン)] が横軸 (説明変数) です。[Division (ディビジョン)] の各種類 (またはカテゴリ) のバーが表示されます。
  • グラフのオレンジ色の水平線は平均 CLV を表し、20135.72 となっています。
  • 青いバーは平均 CLV を大きく上回るか下回るカテゴリを示しており、統計的に最も興味深いカテゴリとなっています。これらのディビジョンのうち、[Raw Materials (原材料)][Mapping (制御回路)] が最も有意に平均を上回っており、[Standard Hardware (標準ハードウェア)] が最も有意に平均を下回っています。
  • グレーのバーは、平均 CLV に近い変数を表しています。これらのディビジョンは、統計的な有意性が低いため、左側の説明テキストで説明されていません。グレーのバーから、他のカテゴリとの差の意味を推測することはできません。

バーの上にマウスポインタを置いて詳細を表示する

グラフのバーの上にマウスポインタを置くと、詳細のポップアップボックスが表示されます。たとえば、[Raw Materials (原材料)] の上にマウスポインタを置くと、次が表示されます。

グラフのバーの上にマウスポインタを置いて詳細を表示します。

ポップアップには、[Division (ディビジョン)][Raw Materials (原材料)] である場合の基になる統計の詳細が表示されます。
  • [Total (合計)] は、[Raw Materials (原材料)] の合計 CLV を表します。
  • [Standard deviation (標準偏差)] からは、カテゴリの項目が平均とどの程度異なっているかがわかります。標準偏差が小さければ、ほとんどの数値が平均に近いことになります。上の例では、原材料カテゴリの標準偏差が 8,440 になっています。以下は、標準偏差が異なる 2 つの曲線を図示しています。中央の頂点が平均です。青い曲線は多くの数値が平均付近に集まっています。この場合は標準偏差が小さくなります。赤い曲線は値が散らばっているため、標準偏差が大きくなります。異なる標準偏差を示す 2 つの曲線
  • Count (カウント) は、カテゴリに含まれるものの数 (データセット内の行数または観測数) です。この例では、Raw Materials (原材料) ディビジョンに 417 人のお客様がいます。
  • Difference from Average (平均からの差違) は、カテゴリ平均 (原材料) がグローバル平均をどの程度上回る (下回る) かを示します。数字が負の場合は、グローバル平均を下回っていることになります。
  • [CLV] は、原材料の平均 CLV を表し、カテゴリ内の各値の合計を値の数 (カウント) で除算したものです。
  • [Global Average (グローバル平均)] は、ディビジョン内のすべてのカテゴリの平均 CLV です。
では、リストの次のインサイトを見てみましょう。

二次分析の表示

ディビジョンに関連付けられたインサイトを見てみましょう。インサイトリストを絞り込むには、[変数] パネルで [Division (ディビジョン)] をクリックします。

変数の操作。

インサイトリストの上にあるブレッドクラムは、現在リストのインサイトがどのように絞り込まれているかを示します。

インサイト [When Type is Consulting, Division: Naval and Standard Hardware do better (種類がコンサルティングの場合、ディビジョンが海軍および標準ハードウェアの数値がよい)] までスクロールダウンします。
[CLV by Division when Type is Consulting (種類がコンサルティングである場合のディビジョン別 CLV)] インサイト

このインサイトは、前述した最初のインサイト [CLV by Division (ディビジョン別 CLV)] を絞り込んだものです。[When Type is Consulting (種類がコンサルティングである場合)] という 2 つ目の変数が追加されます。つまり、2 つの変数 (「CLV がディビジョン」と「種類がコンサルティング」) の組み合わせで強いメッセージを発信します。この種のインサイトを二次分析といい、この変数ペアによって結果変数の変動がどの程度説明されるかを示します。これは結果に対する相互作用効果とも呼ばれます。

グラフで最初に目に付くのは、Naval (海軍) の青いバーです。これは、ディビジョンが [Naval (海軍)] である場合、[Consulting (コンサルティング)] が最高であることを表します。

[CLV by Division when Type is Consulting (種類がコンサルティングである場合のディビジョン別 CLV)] インサイト - グラフ

グラフには、比較しやすいようにデータのバーは並んで表示されます。Naval (海軍) の場合、青いバーは「Type is Consulting (種類がコンサルティング)」を表し、グレーのバーはその他の種類を表します。

説明テキストを見てみます。案の定、最初の (ゆえに最も有意性が高い) 考察は次のようになっています。「Naval is 6,780 higher. This result may have been worsened by Type is Customer. (海軍は 6,780 上回っています。この結果は種類が顧客であれば悪化した可能性があります。)」

次のインサイト [When Type is Retail, Division: Standard Hardware and Standard Materials do better (種類が小売業の場合、ディビジョンが標準ハードウェアおよび標準材料の数値がよい)] までスクロールダウンします。これも二次分析のグラフで、「ディビジョン」と「業種が小売業」の 2 つの変数を組み合わせた結果を示しています。このインサイトは、ディビジョンに関して統計的に意味のあるもう 1 つのパターンです。

[CLV by Division when Industry is Retail (業種が小売業である場合のディビジョン別 CLV)] インサイト

各ディビジョンに 2 つのバーがあります。左側のバーは、小売業のみを対象とした場合のディビジョンの平均値を表します。右側のバーは、小売業を除く全業種を対象とした場合のディビジョンの平均値を表します。これらのバーを比較すると、この対の様態がどのように異なっているかがわかります。

Einstein Discovery でこのインサイトが取り上げられるのは、小売業という特定の業種におけるディビジョンの様態が、他の業種と異なっているためです。このグラフの各バーは、業種が小売業である場合のディビジョンを表します。各ディビジョンをその他全体と比較する場合は、小売業種におけるディビジョンを他の全業種におけるそのディビジョンと比較することになります。この 2 群に統計的な差があれば、バーが青で強調表示されます。

グラフの [Standard Hardware (標準ハードウェア)] の青いバーの上にマウスポインタを置きます。

[CLV by Division when Industry is Retail ― Standard Hardware (業種が小売業である場合のディビジョン別 CLV ― 標準ハードウェア)] インサイトの統計

先ほどと同様、このボックスには、合計、平均、標準偏差、カウント、このカテゴリの平均との差に関する情報が表示されます。さらに、[Difference From Average for Other Buckets (他のバケットの平均との差)] が 2,450 と示されています。業種が小売業である場合の標準ハードウェアと、他の全業種における標準ハードウェアの差を表すためです。

[変数] パネルで、[Type (種類)] をクリックします。[CLV by Type (種類別 CLV)] インサイトには、別の一次分析 (単一変数) が反映されています。

「CLV by Type (種類別 CLV)」インサイト

統計的には、種類はディビジョンに次いで説明力の高い単一変数です。つまり、種類は 2 番目に強力な一次項です。

リソース

無料で学習を続けましょう!
続けるにはアカウントにサインアップしてください。
サインアップすると次のような機能が利用できるようになります。
  • 各自のキャリア目標に合わせてパーソナライズされたおすすめが表示される
  • ハンズオン Challenge やテストでスキルを練習できる
  • 進捗状況を追跡して上司と共有できる
  • メンターやキャリアチャンスと繋がることができる