Skip to main content

分類アプリケーションのためのデータの準備

学習の目的

この単元を完了すると、次のことができるようになります。

  • Einstein 分類アプリケーション用のデータを準備する。
  • 分類アプリケーションの考慮事項を挙げる。

クローズケースデータの収集と確認

各分類アプリケーション用に、Einstein はクローズケースデータに基づく予測モデルを作成します。Einstein ケース分類では項目データに基づく学習が行われ、Einstein ケースラップアップではチャットのトランスクリプトに基づく学習が行われます。


Einstein ケースラップアップではチャットを使用するため、Maria は組織でチャットを有効にします。Ursa Major の初期のクローズケースにはチャットの会話がないため、Ursa Major のサービスエージェントがチャットの会話を含むケースをクローズする件数が増えるにつれて Einstein のおすすめの精度が向上します。


Einstein が新規ケースの項目値を高い精度で予測するためには、クローズケースの項目値が正確であることを Ursa Major Solar の誰かが検証する必要があります。クローズケースの正確性の確認には時間がかかることがあります。けれども、クローズケースの項目値の監査に費やす時間に比例して、項目予測の精度が上昇します。 


データを確認する適任者を見つけるのは、サポートエージェントやマネージャーではなく、システム管理者である Maria です。Ursa Major Solar のクローズケースがクリーンデータで構成されていることを検証して承認するサービスエキスパートが必要です。そこで Maria は、Phoenix オフィスでカスタマーサービスマネージャーを務める、気さくな Ryan De Lyon に依頼することにしました。    

オフィスで立ち話をしている Maria と Ryan De Lyon。

Maria が Ryan にデータのニーズを伝えると、Ryan は喜んで協力してくれることになりました。Ryan にとって既存のクローズケースデータの監査は、自身のサービスチームの生産性への投資になります。つまり、ここでの努力が、予測精度の向上という形で実を結びます。Maria の説明に従って Ryan が次の監査プロセスを定めました。 

  1. 予測が特に役立つケース項目を特定する。ケースのライフサイクル中に変化する項目 ([ケース 状況] など) は除外します。Ryan はとりあえず [優先度][原因] を選択します。この 2 つの値を予測することでエージェントの時間が節約され、またこの 2 つはエージェントの対処を必要としないためです。
  2. [優先度][原因] に値がないクローズケースを監査から除外する。
  3. 1,000 件のクローズケースを Salesforce からスプレッドシートまたは CSV ファイルにエクスポートして、データをすばやく確認できるようにする。
  4. エクスポートされたケースの [件名][説明][優先度][原因] の各項目と、予測モデルの範囲を絞り込む検索条件で使用する項目 ([種別] など) を確認する。

Ryan はクローズケースを監査しながら、修正を要するデータ設計上の問題にも注意を払います。

データが適切であることの確認

効率的な予測モデルの作成にはクローズケースデータの正確性が極めて重要であることから、予測する項目に正しい値が入力されていることを確認しておくことが大切です。予測が大量のデータに基づいている場合でも、そのデータに不完全な値や不正確な値が含まれていれば、予測の精度が低下するおそれがあります。


Ursa Major Solar ではケースのテキストに基づいて予測モデルをトレーニングしているため、ケースを正しく分類するには、そのテキストに正しい情報 (単語または語句) が含まれている必要があります。クローズケースを監査するときに、Ryan は次の点に留意します。

  • 過去のデータを調整して、最適かつ正確なデータを使ってモデルが作成されるようにする。
  • お客様とサポートエージェントの両方が、ケースを分類可能にする特徴的な情報をケースで使用していることを確認する。人間がケースを分類できなければ、Einstein でも分類は無理です。
  • 複数の項目の名前または値がよく似ている場合は、わかりやすいように 1 つの項目または 1 つの値に統合することを検討する。たとえば、[原因] の値に「返品」「返品の問題」「返品伝票」「返品追跡」などがある場合は、1 つにまとめます。サポートエージェントが正しい項目や値を判断しづらい場合は、予測モデルも最適なおすすめを的確に判断することができません。
  • 情報が多すぎる項目がある場合は、個々の項目値に分割することを検討する。包括的な項目をいくつかの具体的な値に変更します。たとえば、「返品」という値を「欠陥品の返品」「贈答品の返品」「返品の返金」に変更します。

最適な結果を得る

予測から最適な結果を得るためには、クローズケースデータを監査し、データが適切であることを検証する以外にも留意すべき点がいくつかあります。

ケース総数

Einstein がケースの項目値を高い精度で予測するためには、学習元となるクローズケースが多数必要です。「クローズケース」とは、過去 6 か月間に作成されたすべてのクローズケースを意味します。暗号化項目は予測モデルの作成には使用できないため、ケースのタイトルと説明を暗号化しないようにする必要があります。

  • 予測モデルを作成する場合、Einstein に少なくとも 400 件のクローズケースが必要ですが、1,000 件以上あるのが理想的です。学習元となるケースを制限する条件を追加した場合、Einstein は条件に一致するクローズケースのみをカウントします。
  • 項目の値を予測する場合、Einstein はその項目に値が設定されているクローズケース を 400 件以上必要とします。

倫理と人工知能

Maria は Ursa Major の既存のデータセットに人工知能を使用することの倫理的な影響についても考慮したいと考えています。そのため、Einstein ケース分類を有効にする前に次の 3 点について検討します。 

  • データセットバイアスについて認識しているか?
    データが極端に簡略化されていたり、ラベル付けや分類が間違っていたりする場合は、測定バイアスが生じます。測定バイアスは、人がデータに間違ったラベルを付けたことで生じることもあれば、マシンの誤作動によって生じることもあります。データセット内のある特性、要因、集団が過多あるいは過少になることがあります。
  • データセットの設計で多様な参加者を対象としているか?
    ある人がシステムの構築に着手する場合、何を構築すべきか、誰のために構築すべきか、どのように機能すべきか (誰からどのようなデータを収集すべきか) に対して思い込みがあることがあります。思い込みがあるからといって、システムの制作者に悪意があるわけではありませんが、私たち人間は、他の全員の経験を常に把握することや、そのシステムが他者にどのような影響を及ぼすかを予測することはできません。

Ryan ができる限り最高の予測モデルを作成するためにクローズケースデータを確認して調整している間に、Maria は Einstein 分類アプリケーションを実装する準備を整えます。  

リソース

無料で学習を続けましょう!
続けるにはアカウントにサインアップしてください。
サインアップすると次のような機能が利用できるようになります。
  • 各自のキャリア目標に合わせてパーソナライズされたおすすめが表示される
  • ハンズオン Challenge やテストでスキルを練習できる
  • 進捗状況を追跡して上司と共有できる
  • メンターやキャリアチャンスと繋がることができる