実世界のデータで AI をアップグレードする
学習の目的
この単元を完了すると、次のことができるようになります。
- Agentforce データライブラリを使用する利点を説明する。
- AI のデータ変換と整理に関わる 4 つの重要な概念を定義する。
- Agentforce データライブラリの設定プロセスと実行時プロセスがどのように機能するかを説明する。
始める前に
このモジュールを始める前に、次の推奨コンテンツを完了することを検討してください。
なぜ AI をデータでグラウンディングするのか?
AI システムが正確かつ効果的に機能するうえで、データは重要な役割を担っています。お客様に間違った回答をすれば、そのお客様はその後の購入に消極的になるかもしれません。サービス担当者に間違った情報を提供すれば、お客様をサポートするのではなく、苛立たせてしまうかもしれません。営業担当に古いレコメンデーションを表示すれば、目標収益を達成できなかったり、貴重なビジネス機会を失ったりするかもしれません。
AI システムを成功に導く根幹はデータですが、AI モデルは本来ジェネラリストで、膨大なデータセットでトレーニングされ、幅広い知識ベースを獲得します。ただし、この幅広い知識ベースには、特定のタスクを実行したり、固有のユースケースで技術的な質問に答えたりするために必要な専門的な情報は含まれていません。
実世界のデータによるグラウンディングで、AI モデルは静的なトレーニングセットの枠を超えることができます。Salesforce 知識ベース、アップロードしたファイルや Web サイトなど、検証済みの情報ソースで AI モデルをグラウンディングすることで、LLM はお客様からの問い合わせにより正確に応答したり、エージェントへの返信候補を提案したり、検索結果を高度に要約したりできるようになります。
エンタープライズデータの課題
ほとんどの企業は、自社の知識ベースを非構造化形式で保存しています。たとえば、動画、画像、ドキュメント、メール、センサーデータ、ソーシャル投稿、音声ファイルなど、スプレッドシートやデータベースに簡単に収まらない形式のデータです。エンタープライズデータデータの 90% 近くを占めるこうしたデータは、検索が容易ではありませんが、お客様のフィードバック、認識、意見、口調、センチメントなどの貴重なインサイトが詰まっています。では、このデータの可能性を引き出すにはどうすればよいでしょうか?
ここで登場するのが、実世界のデータで AI をグラウンディングできる強力なツール、Agentforce データライブラリです。Agentforce データライブラリを使用すれば、自社の知識ベースを Salesforce AI 機能に簡単に接続でき、組織やユースケースに合わせた最新の AI 生成コンテンツを活用できます。Agentforce データライブラリを設定すると、非構造化や準構造化の大規模なデータを、より便利で検索可能なコンテンツに変換するために必要なツールを利用できます。それでは、詳しく見ていきましょう。
大規模言語モデルで効率的に使用できるようにデータを変換する
Agentforce データライブラリを使用すると、Data Cloud とプロンプトビルダーにまたがる設定ステップを自動化することで、エージェントや大規模言語モデル (LLMs) を非構造化データに簡単にリンクできます。これには、Data Cloud へのデータストリームのプッシュ、データオブジェクトの対応付け、検索インデックスとレトリーバーの作成などがあります。その結果、AI ツールは常に最新かつ関連性の高い情報に基づいて動作します。
データライブラリを設定する簡単なステップについて説明する前に、グラウンディング、チャンク、インデックス付け、レトリーバーという 4 つの重要な概念を確認しましょう。
グラウンディング
グラウンディングとは、ドメイン固有の知識や顧客情報をプロンプトに追加し、質問やタスクにより正確に応答するために必要なコンテキストを LLM に与えることです。前述のとおり、グラウンディングのソースには、ナレッジ記事、アップロードされたファイル、Web サイト、会話トランスクリプトなどが含まれます。ただし、長く複雑なドキュメントは検索に時間がかかり、リソースを多く消費するため、LLM には一度に処理できるテキスト量に対して最大トークン数または単語数の制限があります。
チャンクとインデックス付け
これに対応するために、データソースはチャンクと呼ばれる小さな部分に分割されます。このチャンクを検索し、LLM が考慮するために最も関連性の高い情報のみを返します。
データがチャンク化されたら、検索インデックスに整理して分類されます。整理された検索インデックスに情報を保存することで、必要に応じて特定のデータをより簡単かつ迅速に取得できるようになります。このようにデータがチャンク化され整理されると、検索の効率が高まり、結果の関連性が向上し、非常に大きなデータセットの処理も可能になります。
膨大な商品を取り扱う大規模なオンラインストアを思い浮かべてください。ストアカタログや Web サイト分類がしっかりと整理されているため、お客様は商品名、種類、ブランド、特定の機能などのカテゴリで、探している商品をすばやく見つけることができます。データを小さく分割して検索インデックスで整理することは、コンテンツのカタログを作成するようなものです。LLM は、このカタログまたはインデックスを使用して適切な情報を見つけ、ユーザーのクエリに回答できます。
レトリーバー
レトリーバーは、データと機能の間のポインターとして機能します。さまざまなデータベース、システム、プラットフォームから関連するデータを自動的に抽出して提供するよう設計されています。ユーザーが質問すると、各データライブラリに割り当てられたレトリーバーによって、Salesforce AI ツールがアクセスできる Data Cloud 内のデータセットが決定されます。このためレトリーバーは、検索エンジン、質問回答システム、おすすめシステムのようなアプリケーションで特に重要になります。
AI におけるデータの整理に関する基本を学びました。次は、データライブラリの設定時と実行時にこうしたプロセスがどのように行われるかを見てみましょう。
設定時に行われる処理
データライブラリを作成すると、データを AI エージェントや機能に接続するプロセスがすぐに開始されます。最初にデータストリーム、続いてデータレイクとデータモデルオブジェクトが作成されます。次に、これらのオブジェクトが対応付けられ、データのチャンク化が開始されます。チャンク化に必要な時間は、ナレッジ記事やアップロードされたファイルの数、サイズ、複雑さと、チャンク化の対象として選択されたナレッジ項目の数によって異なります。チャンク化が完了し、検索インデックスの準備ができたら、レトリーバーが作成されます。各 Agentforce データライブラリには固有のレトリーバーがあり、同じ検索インデックスを参照することができますが、独立して動作します。
実行時に行われる処理
レトリーバーが設定され、検索インデックスの準備が完了すると、実行時にユーザークエリを処理できる状態になります。
実行時には、ユーザーのクエリがプロンプトテンプレートに追加され、関連するデータに接続するレトリーバーを参照します。システムは、検索インデックスを検索して最も関連する情報を見つけ、それをプロンプトに組み込みます。LLM は、ユーザーのクエリ、追加情報、プロンプト指示を含むこの強化されたプロンプトを受け取り、応答を生成します。サービスプランナーは、この応答がプロンプト指示に沿っていることを確認します。最後に、エンドユーザーは、クエリに正確に回答し、特定のタスクに合わせて関連するドメイン固有の情報でコンテキスト化された応答を受信します。
まとめ
お疲れさまでした。この単元では、なぜ AI をデータでグラウンディングすることが重要なのかを学び、特別な用語と技術的なプロセスを確認しました。次は、実際に設定して、どれだけ簡単にできるかを見てみましょう。