データを準備する

学習の目的

この単元を完了すると、次のことができるようになります。

データの課題を特定して解決する方法について説明する。
プロジェクトのデータ要件を定義する。

データの準備を整えることの重要性

組織が AI プロジェクトを立ち上げるためには、データの準備を整える必要があります。つまり、プロジェクトのデータの正確性、可用性、アクセス可能性が確保され、安全に管理されている状態にします。

多くの組織では、データの品質が AI プロジェクトの実装を阻む大きな要因になっていますが、それにはもっともな理由があります! データは AI アルゴリズムの基盤で、AI が学習して適応し、適切な判断を下せるのもデータがあるからです。データの質が高ければ、AI システムの正確性、効率性、信頼性、公平性が向上します。

ですから、AI プロジェクトを実装する前に、データ品質の問題に対処しておくことが極めて重要です。ただし、万全なデータにしようと躍起になってプロジェクトに支障が出るようなことがあってはなりません。多数のチームが完璧を目指すがために、データの準備段階でプロジェクトに行き詰まっています。ですから、チームと協力して、データの準備状況について合理的な目標を見定めます。構築フェーズで、AI の出力に影響を及ぼすようなデータのギャップがないか確認し、あれば対処します。

この単元では、データの品質を評価して、AI プロジェクトのデータを準備する方法について概説します。

「Worksheet: Predictive AI Data Prep Checklist (ワークシート: 予測 AI のデータプレップチェックリスト)」または「Worksheet: Generative AI Data Prep Checklist (ワークシート: 生成 AI のデータプレップチェックリスト)」を使用して、AI プロジェクトのデータ計画を立てます。

データインベントリを作成する

プロジェクトのデータの全容を把握する最適な方法がデータインベントリの作成であることを Becca は心得ています。データインベントリがあれば、多様なデータアセットを管理して、潜在的な問題を見つけることができます。

データインベントリを作成する手順は、次のとおりです。

プロジェクトに必要なデータを特定します。
データが保存されている場所を確認します。
データに関する次の質問に回答します。
- データは構造化、非構造化、半構造化のどの種類か? (データ分類についての詳細は、「AI におけるデータの基礎」を参照してください。)
- データの更新頻度は?
- データがリアルタイム、毎時、毎日、毎月更新されるか、あるいは静的か?
- データへのアクセス方法は?
- データのガバナンス標準が実装されているか?
- データに関する考慮事項で、プロジェクトに問題を引き起こす可能性があることは何か?

Coral Cloud のデータインベントリ

では、Coral Cloud Resorts のチェックインプロセスを自動化する Becca の AI プロジェクトの続きを見てみましょう。以下は、以前に説明した Becca の実装計画で、主なデータポイントが太字で示されています。

Data 360 のフローを使用して、最新の予約データを基に Guest Event (ゲストイベント) レコードを作成します。
Agentforce に会話型言語でフローの起動方法を指示する。たとえば、Sofia Rodriguez というゲストが到着したときに、スタッフが Einstein に「Sofia Rodriguez をチェックイン」と指示すれば、Einstein が残りの処理を行ってくれます。
プロンプトビルダーを使用して、ゲストが関心を抱きそうなオプショナルツアーを提案するパーソナライズされたウェルカムメールを生成して送信します。

Becca は計画を見直し、このソリューションを実装するためにはどのようなデータが必要か判断します。

ステップ 1 では、予約データが必要です。Coral Cloud では Reserv-o-matic という外部のプラットフォームに予約データを保存しているため、Becca は Data 360 を使用してそのデータを Salesforce に取り込みます。
ステップ 2 では、お客様の名前に基づいて予約データを取得する必要があります。顧客データは Salesforce で確認できます。
ステップ 3 では、ゲストが以前に購入したオプショナルツアーに関するデータが必要です。お客様の購入履歴も Salesforce で確認できます。

Becca は必要なデータソースを見つけて、データインベントリを作成します。

データ名	データソース	データの種別	更新間隔	考慮事項
取引先責任者レコード	CRM	構造化	毎日	日付は MM/DD/YY 形式
予約	Reserv-o-matic	構造化	リアルタイム	日付は DD/MM/YY 形式
オプショナルツアー	CRM	構造化	毎日	日付は MM/DD/YY 形式

プロジェクトのデータ要件を把握する

プロジェクトのデータ要件は、プロジェクトの成功に欠かせない基本要件です。データ要件を理解すれば、不要な作業が減少します。

データ品質を評価する

データの質が高ければ、信頼性が高く、効果的な AI プロジェクトが作成されます。(データ品質の評価についての詳細は、「データ品質」を参照してください。) データの品質を評価するときは、データに不備がある箇所を特定します。この領域がデータクリーニングの対象になります。データクリーニングとは、データセット内の不正確なデータ、破損しているデータ、形式が不適切なデータ、重複しているデータ、不完全なデータを修正または削除するプロセスです。データギャップの解消もこの対象です。

データクリーニングは時間がかかる可能性があるため、プロジェクトに必要な優先度の高いデータのクリーニングから始めてください。まず、優先度が高く労力が少ないデータをクリーンアップし、次に優先度が高く労力の大きいデータをクリーンアップします。時間とリソースに余裕があれば、優先度の低いデータのクリーンアップに進みます。

Becca がデータインベントリに記したとおり、予約日が DD/MM/YY 形式であるのに対し、取引先責任者レコードとオプショナルツアーは MM/DD/YY 形式になっています。日付形式が一貫していないため、品質条件を満たしていません。Becca はすべての予約日を MM/DD/YY 形式に変換する簡単なプログラムを記述します。

Becca はデータのほかの問題をクリーンアップしているうちに、データが多すぎて完璧にすることはできないと感じ始めました。Coral Cloud は世界でも有数のリゾートで、毎年何千人ものゲストが訪れます。この作業にめげそうになっていましたが、ふとプロジェクトのデータ要件にこだわりすぎて、過去の予約もクリーンアップしていたことに気付きました。自動チェックインを使用するのは将来の予約のみのため、今後の予約をクリーンアップすれば事足ります。Becca のプロジェクトで優先度の高いデータは、将来の予約です。★ プロジェクトのデータ要件を理解した Becca は、処理すべきレコード数を大幅に減らすことができました。

データを移行して統合する

複数のソースにデータが分散している場合は移行する必要があります。複数のソースから一元的なソースにデータを取り込むということです。プロジェクトが Salesforce で構築されている場合は、外部データを Salesforce に取り込みます。データを移行したら、さまざまなソースからのデータを一元的な包括ビューに統合します。プロジェクトに必要なデータのみを移行して統合します。プロジェクトを管理しやすくし、システムが不要なデータで溢れないようにするためです。

Becca のプロジェクトでは、Reserv-o-matic の予約データと Salesforce の取引先責任者レコードに基づいて Guest Event (ゲストイベント) レコードを作成するため、予約データを取引先責任者レコードに結び付ける必要があります。この 2 つをつなげなければ、どの予約がどの取引先責任者に属するのかをフローが認識できません。不必要なデータを統合したくない Becca は、予約レコードに不要な項目がないか確認します。予約にはお客様が要望を伝えるための [Notes (メモ)] 項目があります。特定の形式はなく、大半のお客様は空白のままにしています。Guest Event (ゲストイベント) レコードの作成に [Notes (メモ)] 項目は必要ないため、予約を Salesforce に移行する前にこの項目を削除します。

Becca は、Reserv-o-matic からデータを取り込むデータストリームを設定します。続いて、ID 解決を使用して、Salesforce の Sofia と Reserv-o-matic の Sofia を一致させます。これで、Sofia のレコードに、Salesforce の取引先責任者の詳細と Reserv-o-matic の予約の詳細の両方が示されます。

データガバナンスを確立する

データのセキュリティを確保するために、データガバナンスを確立します。Becca は、アクセスポリシーや動的データマスキングなどを使用して、Data 360 Governance によって自分のデータを安全に管理しています。詳細は「Data 360 Governance: クイックルック」でご確認ください。

分析を計画する

成功を測定する分析計画を立てます。プロジェクトのパフォーマンスを監視し、投資収益率 (ROI) を実証するためには成功分析が欠かせません。プロジェクトのさらなる開発や将来の AI プロジェクトに対する支援を得られるかどうかは ROI がその鍵を握ります。

分析計画は、前の単元で説明したプロジェクトの目標に沿ったものである必要があります。Becca のプロジェクト目標を振り返ってみましょう。

チェックイン時間を 50% 短縮する。
顧客満足度をプロジェクトの開始前のレベルかそれ以上に維持する。

Becca はプロジェクトが上記の目標を満たしたかどうかを測定するために、データを収集して分析する方法を決めます。

毎日終業時にフロントデスクのコンピューターのスクリーンタイムを計算する。AI チェックインプロセスの実装前後の平均スクリーンタイムを比較します。
各ゲストの出発時に、満足度を評価するアンケートを依頼する。AI チェックインプロセスの実装前後の平均満足度を比較します。

これでプロジェクトの影響を確固たる方法で実証できます。

データの課題を解決する

プロジェクトの要件を定義した Becca は、続いてデータの極めて重要な課題も解決しておきます。一般的な課題として、品質の問題、インテグレーションの障壁、データのギャップ、場合によっては旧式のデータインフラストラクチャなどが挙げられます。こうした問題を早期に解決しなければ、Coral Cloud の新しい AI プロジェクトが信頼性に欠けるデータや不正確なデータに基づいて構築されかねないことを Becca は認識しています。

Becca は自らのプロジェクトを大きく進展させることができました! 今ではデータをプロのごとく扱っています。次の単元では、Becca が AI プロジェクトのリスクを評価し、責任をもって信頼できる方法でプロジェクトを実装するところを見ていきます。

リソース

記事: Is Your Data Good Enough for Your Machine Learning/AI Plans? (データが機械学習/AI 計画に十分対応しているか?)

予想時間

トピック

ヘルプをお探しですか?

Data 360 のリソース