Skip to main content

エージェントのテストツールと考慮事項を確認する

学習の目的

この単元を完了すると、次のことができるようになります。

  • エージェントをテストすることの重要性を説明する。
  • エージェントをテストするために使用できるツールについて説明する。
  • エージェントのテストでの考慮事項とそれを軽減する方法を説明する。

始める前に

このモジュールを始める前に、次の推奨コンテンツを完了することを検討してください。これらのモジュールで学んだ知識を土台にして、このモジュールでさらに発展させます。

はじめに

人工知能 (AI) と AI エージェントの登場により、ソフトウェア開発に対する考え方が変わりつつあります。多くの組織では、これまで何年も Salesforce ソリューションの管理やカスタマイズを行ってきた同じ Salesforce システム管理者や開発者が、現在は Agentforce エージェントの構築を担当しています。これには、スキルや使用するツール、マインドセットの転換が求められます。アイデア創出、設定、テスト、リリース、観察といった従来のアプリケーションライフサイクル管理 (ALM) フェーズは、エージェント開発ライフサイクル (ADL) プロセスにも当てはまりますが、これに生成 AI を組み合わせると、特にエージェントのテストに関して、予想外の紆余曲折が生じることがあります。

エージェント開発ライフサイクルの 5 つのフェーズ (アイデア創出、設定、テスト、リリース、観察) を示す輪。

このモジュールでは、エージェントのテストやトラブルシューティングに使用できるツール、テスト時の考慮事項、エージェントの応答をより正確かつ予測可能にするためのテスト計画について学習します。

テストを行う理由

「Agentforce: エージェントプランニング」バッジを獲得している場合は、Coral Cloud Resorts の Nora Alami が、顧客予約の作成と管理ができるエージェントを計画する過程を一緒に見てきました。利用者、範囲、ユースケース、ガードレール、実行するタスクなどの条件の定義について学びました。これらの仕様は、エージェントが設計どおりに動作することを確認するためにテストで検証すべきものです。

エージェントをテストしてトラブルシューティングするためのツール

ユーザー入力に対してエージェントが正確かつ予測可能に応答することを確認するのは、特にトピック、アクション、ガードレールで処理しなければならない多くのユーザー要求を考えると、大変な作業に思えるかもしれません。多くの変数が関係しているため、不正確な応答、エラーメッセージ、ハルシネーションの原因は、指示、アクション、データ、権限セットの中にある可能性があります。そのため、Agentforce スタジオには、エージェントが信頼性の高い予測可能な応答を返せることを確信できるように、Agentforce Builder での手動テストとテストセンターでの大規模テストという 2 つのテストレベルがあります。

Agentforce Builder のテストとトラブルシューティングのツール

Agentforce Creator でエージェントを構築したら、Agentforce Builder でそのテストを開始できます。会話プレビューパネルで会話してみて、エージェントのパフォーマンスを確認できます。プランキャンバスで詳細を参照すれば、どのようなステップを経て応答が返されたかを確認できます。また、エージェントのイベントログで、特定のセッションや会話の詳細を確認できます。

会話プレビュー (1): Agentforce Builder の [Conversation Preview (会話プレビュー)] パネルでエージェントと会話を始められるステップまで進むと、ワクワクします。ここで、ユーザーがエージェントと行う可能性がある会話をシミュレーションし、エージェントが意図したとおりに応答するかどうかを確認できます。生成された応答を通じて、エージェントが有益で関連性の高い応答を返しているか、適切なアクションをコールしているか、ビジネスプロセスを正しく参照しているか、設定したガードレール内で動作しているかを確認できます。

プランキャンバス (2): 会話プレビューのチャットウィンドウに入力するたびに、プランキャンバスと呼ばれる中央のパネルが更新され、エージェントがどのようにして応答を導き出したかがわかります。プランキャンバスには、ユーザーによる最初の入力、エージェントが選択したトピック、コールしたアクション、使用した指示が表示されます。また、エージェントが応答を生成するために使用した推論と、個人情報を含む正確な応答を返すために使用が許可されている関連データも表示されます。

受け取った応答と詳細は、エージェントがプランに沿った応答を返せるよう調整すべき部分を特定するのに役立ちます。入力をテストし、エージェントを修正し、再度テストすることができます。入力の合間や、更新を適用するには、[Conversation Preview (会話プレビュー)] ウィンドウを更新します。

「I’d like to make a reservation」(予約したい) というプロンプトに対し、「Sure thing! Could you please provide me with your email address so I can look up your contact record?」(もちろんです! 取引先責任者レコードを検索しますので、メールアドレスを教えてください。)」と表示されている Agentforce Builder の [Conversation Preview (会話プレビュー)] パネルと、応答、応答を生成するためにコールしたトピック、指示、推論が表示されているプランキャンバス。

拡張イベントログ

[Conversation Preview (会話プレビュー)] パネルに表示されるインタラクションの詳細は、エージェントを更新するたびにクリアされますが、エージェントセッションでのやり取りは拡張イベントログに取得され保存されるため、エージェントの応答を改善するために会話の流れを参照できます。拡張イベントログを使用するには、Agentforce Creator の [Customize your agent (エージェントをカスタマイズ)] 画面で [Keep a record of conversations with Enhanced Event Logs to review agent behavior (エージェント動作をレビューするために拡張イベントログを使用して会話の記録を保持する)] チェックボックスをオンにして設定を有効にします。また、後でエージェントの設定の [Details (詳細)] タブで拡張イベントログを有効にすることもできます。

[Keep a record of conversations with Enhanced Event Logs to review agent behavior (エージェント動作をレビューするために拡張イベントログを使用して会話の記録を保持する)] チェックボックスに緑にチェックマークが表示されている Agentforce Builder のステップ 3。

拡張イベントログにアクセスできると、ユーザーとエージェントの会話のやり取り (エージェントに与えられた入力とそれに対するエージェントの応答など) を確認できるため、エージェントの起動後に役に立ちます。これにより、問題を見つけて修正したり、想定していなかった入力に対応できるようエージェントを調整したりできます。イベントログを参照することで、エージェントが的を絞った応答ができるように、追加のガードレールを設定したり、指示やアクションを調整したりする必要があるかどうかがわかります。Agentforce Builder にはイベントログが 7 日間保存されるため、会話データやセッションアクティビティをすべて 1 か所で遡って確認できます。

エージェントセッションの会話データが表示されている [Event Logs (イベントログ)] タブ。

テストセンター

Agentforce Builder でエージェントのパフォーマンスを調整したら、テストセンターで一括テストを行うことができます。[Setup (設定)] からテストセンターにアクセスするには、[Quick Find (クイック検索)] ボックスで [Testing Center (テストセンター)] を検索して選択します。または、Agentforce Builder から、[Conversation Preview (会話プレビュー)] パネルの上の [Batch Test (一括テスト)] ボタンをクリックします。

[Agentforce Studio (Agentforce スタジオ)] の [Testing Center (テストセンター)] が表示されている [Setup (設定)] メニュー。

Agentforce Builder ですでにエージェントをテストしたのに、なぜテストセンターで一括テストをしなければならないのかと考えているかもしれません。ユーザーのあらゆる質問やエージェントとのやり取りを想定して、それを会話プレビューウィンドウで 1 つずつテストするのは、とても時間がかかります。テストセンターでは、数十個、数百個のシナリオを同時にテストすることで作業を簡素化します。たとえば、自然言語で書かれたテストシナリオの .csv ファイルをアップロードすることもできますし、エージェントが実行するジョブに関連するテスト入力をテストセンターで AI に生成してもらうこともできます。

一括テストを実行すると、結果にはテストされた入力内容のほかに、予期されるトピックとアクション、実際にコールされたトピックとアクション、予期される応答、各入力が合格か不合格かが表示されます。テスト入力が不合格となった理由を詳しく知りたい場合は、Agentforce Builder の [Conversation Preview (会話プレビュー)] パネルに入力内容をコピーして貼り付けると、プランキャンバスでエージェントが不合格の応答に至るまでに通ったパスを確認できます。これにより、指示をさらに調整でき、ユーザーエクスペリエンスの向上につながります。テストセンターとテストシナリオの記述や生成についての詳細は、「Agentforce: エージェントのテスト」を参照してください。

エージェントのテストでの考慮事項

従来のアプリケーションのテストでは、アプリケーションの構築を始める前から、あらゆる詳細を計画します。成功は、予測可能で再現性のある結果を出せること、つまり確定的であることによって判断されます。ソリューションは、意図したとおりに機能するか、そうでないかのどちらかです。一方、エージェントの開発でも事前のプランニングは必要ですが、エージェントを構築しながら調整、テスト、修正をしていきます。エージェントのテストは確率的です。つまり、生成 AI にはルールに基づくロジックが欠けているため、予測しにくく、ユニークで、ときには驚くような結果になることがあります。同じ入力でも、正しい応答、不正確な応答、あるいはハルシネーションを含む、さまざまな異なる応答が生成されることがあります。また、ユーザーがエージェントとどのようにやり取りするかをすべて予測するのは難しいため、エージェントを構築するときに、さまざまなシナリオを考慮してテストする必要があります。そうすることで、ユーザーの入力内容にマッチしない応答や不正確な応答を最小限に抑えます。

エージェントが本番環境で稼働可能かを判断する

エージェントの動作は確率的であるため、いつ本番環境で稼働可能と判断できるかは明確ではありません。どの企業も、さまざまなシナリオにおける合格・不合格のベースラインを独自に決める必要があります。正解は 1 つではなく、求められる精度のレベルは業界によって異なります。まずは、予約に関する問い合わせの対応など、人間が同じタスクを行った場合の精度を考慮し、それをベースラインとします。そうすれば、エージェントがその精度レベルを達成する、あるいは上回るように取り組むことができます。

テストは必ず Sandbox で行う

エージェントのテストによって CRM データが変更される可能性があるため、テストセンターは本番環境で使用せず、必ず Sandbox 環境で使用してください。

複数の条件を使用して応答を評価する

会話プレビューパネルで、入力に対して望む応答を得るには、いくつかの試行錯誤が必要になります。エージェントの構築は反復的なプロセスです。また、さまざまな種類の入力に対応するために、推敲や権限の確認、データの検証、指示への詳細やガードレールの追加など、いくつかの修正を行う必要があります。プランキャンバスのフィードバックやイベントログ、テストセンターで得られる情報は、求める精度に近い応答を得るために、エージェントのトピック、アクション、指示のどこを調整すべきかを特定するのに役立ちます。

エージェントをテストするときに考慮すべき主なポイントと、それに対処する方法を紹介します。

テストでの考慮事項

エージェントを調整する方法

エージェントは指示に従ったか?

  • 既存の指示の表現を調整するか、さまざまな種類の入力に対応するために指示を追加する。

応答は正確で完全で読みやすいか?

  • エージェントが適切なデータにアクセスしていることを確認する。
  • アクションや指示を小さく分割して個別に対応できるようにする。
  • 会社の語調やトーンに合わせて指示の表現を調整する。

応答はデータでグラウンディングされているか?

  • 適切なデータを呼び出すように指示を修正する。
  • エージェントに、必要なすべてのデータにアクセスする権限があることを確認する。
  • アクセスしているデータが最新かつ正確であることを確認する。

応答はブランドボイスに合っているか?

  • 自社で使用している用語や表現に合わせて指示を調整する。
  • 言語設定タブで語調を調整する。

応答するまでどれぐらいかかったか?

  • 指示を明確にする。
  • アクションや指示を小さく分割する。

応答にバイアスや有害性があるか?

  • ガードレールを調整するか、指示に追加する。

応答は毎回信頼性が高いか?

  • エージェントの応答が精度のベースラインを達成または上回っているかを判定する。

テストのコスト

テストで最後に考慮すべき点は、テストを実行するためのコストです。テストセンターでエージェントをテストすると、Flex Credits、会話クレジット、Einstein 要求に加えて、Data Cloud クレジットも消費する場合があります。こうした要求やクレジットは、組織に対してコストが発生する、生成 AI の請求可能な利用状況メトリクスです。詳細は、生成 AI の請求可能な利用状況の種別に関するヘルプドキュメントを参照するか、アカウントエグゼクティブにお問い合わせください。

まとめ

エージェントのテストには、従来のアプリケーションのテストとは異なる考え方と進め方が求められます。エージェントの応答に影響を与える可能性のあるさまざまな変数を考慮すれば、エージェントテストの成功が従来のソフトウェアテストよりも主観的になるのは不思議ではありません。Agentforce のテストツールを使いこなし、エージェントのパフォーマンスに影響する要因を軽減する方法を理解していると、望む精度をより迅速に達成することができます。次の単元では、テストの進め方を示すエージェントテスト計画を作成することの重要性を学習します。

リソース

Salesforce ヘルプで Trailhead のフィードバックを共有してください。

Trailhead についての感想をお聞かせください。[Salesforce ヘルプ] サイトから新しいフィードバックフォームにいつでもアクセスできるようになりました。

詳細はこちら フィードバックの共有に進む