Skip to main content

エージェントのテストツールと考慮事項を確認する

学習の目的

この単元を完了すると、次のことができるようになります。

  • エージェントをテストすることの重要性を説明する。
  • エージェントをテストするために使用できるツールについて説明する。
  • エージェントのテストでの考慮事項とそれを軽減する方法を説明する。

始める前に

このモジュールを始める前に、次の推奨コンテンツを完了することを検討してください。これらのモジュールで学んだ知識を土台にして、このモジュールでさらに発展させます。

はじめに

人工知能 (AI) と AI エージェントの登場により、ソフトウェア開発に対する考え方が変わりつつあります。多くの組織では、これまで何年も Salesforce ソリューションの管理やカスタマイズを行ってきた同じ Salesforce システム管理者や開発者が、現在は Agentforce エージェントの構築を担当しています。これには、スキルや使用するツール、マインドセットの転換が求められます。アイデア創出、設定、テスト、リリース、観察といった従来のアプリケーションライフサイクル管理 (ALM) フェーズは、エージェント開発ライフサイクル (ADL) プロセスにも当てはまりますが、これに生成 AI を組み合わせると、特にエージェントのテストに関して、予想外の紆余曲折が生じることがあります。

エージェント開発ライフサイクルの 5 つのフェーズ (アイデア創出、設定、テスト、リリース、観察) を示す輪。

このモジュールでは、Agentforce スタジオでエージェントのテストやトラブルシューティングに使用できるツール、テスト時の考慮事項、エージェントの応答をより正確かつ予測可能にするためのテスト計画について学習します。

テストを行う理由

「Agentforce: エージェントプランニング」バッジを獲得している場合は、Coral Cloud Resorts の Nora Alami が、顧客体験の作成と管理ができるエージェントを計画する過程を一緒に見てきました。利用者、範囲、ユースケース、ガードレール、実行するタスクなどの条件の定義について学びました。これらの仕様は、エージェントが設計どおりに動作することを確認するためにテストで検証すべきものです。

エージェントをテストしてトラブルシューティングするためのツール

ユーザー入力に対してエージェントが正確かつ予測可能に応答することを確認するのは、特にサブエージェント、アクション、ガードレールで処理しなければならない多くのユーザー要求を考えると、大変な作業に思えるかもしれません。多くの変数が関係しているため、不正確な応答、エラーメッセージ、ハルシネーションの原因は、指示、アクション、データ、権限セットの中にある可能性があります。そのため、Agentforce スタジオには、エージェントが信頼性の高い予測可能な応答を返せることを確信できるように、Agentforce Builder でのプレビューテストとテストスイート (ベータ) での大規模テストという 2 つのテストレベルがあります。

Agentforce Builder のテストとトラブルシューティングのツール

Agentforce Builder には、会話をテストし、エージェントがどのように応答を導き出したかを確認できる複数のツールが用意されており、ユーザーに公開する前にエージェントの改善を重ねることができます。では、詳しく見てみましょう。

プレビュー (1): Agentforce Builder の [Preview (プレビュー)] パネルでエージェントと会話を始められるステップまで進むと、ワクワクします。[Preview (プレビュー)] パネルで、ユーザーがエージェントと行う可能性がある会話を試し、エージェントが意図したとおりに応答するかどうかを確認できます。次の 2 つのプレビューモード (2) から選択できます。

  • シミュレーション - モックデータとアクションを使用してエージェントをテストします。
  • ライブテスト - 実際のデータを使用してエージェントのパフォーマンスを確認します。

プレビューで生成された応答を通じて、エージェントが有益で関連性の高い応答を返しているか、適切なアクションをコールしているか、ビジネスプロセスを正しく参照しているか、設定したガードレール内で動作しているかを確認できます。

インタラクション概要 (3): エージェントが応答を返すために実行した手順の概要を確認できます。これには、呼び出されたサブエージェントや推論も含まれます。

Agentforce セッション追跡 (4): エージェントセッション中に発生したすべての詳細を表示し、エージェントインタラクションを調査したりトラブルシューティングしたりできます。各セッションのセッション ID ごとに、推論エンジンの実行、アクション、プロンプトおよびゲートウェイの入出力、エラーメッセージ、最終応答を、テキストまたはコードビュー (5) で確認できます。Agentforce セッション追跡には、Data 360 が必要です。

「I’d like to book a session of the Full Moon Beach Experience. (Full Moon Beach Experience のセッションを予約したいです。)」というプロンプトと、「To help you book a session for the Full Moon Beach Experience, I need to verify your details first. Could you please provide your email address and membership number? (Full Moon Beach Experience のセッションの予約をお手伝いするために、まずお客様情報を確認する必要があります。メールアドレスとメンバーシップ番号を入力してください。)」という応答が表示されている Agentforce Builder の [Preview (プレビュー)] パネル。また、入力、サブエージェント、推論、出力評価など、エージェントが応答に到達するまでに使用した手順を示す [Interaction Summary (インタラクション概要)] パネル、セッション追跡の詳細とセッション ID も表示されている。

Agentforce セッション追跡は、ユーザーとエージェントの会話のやり取り (エージェントに与えられた入力とそれに対するエージェントの応答など) を確認できるため、エージェントの稼働後に役に立ちます。これにより、問題を見つけて修正したり、想定していなかった入力に対応できるようエージェントを調整したりできます。セッション追跡では、エージェントが的を絞った応答ができるように、追加のガードレールを設定したり、指示やアクションを調整したりする必要があるかどうかがわかります。

Agentforce スタジオのテストスイート

Agentforce Builder でエージェントのパフォーマンスを調整したら、Agentforce スタジオのテストスイート (ベータ) で一括テストを行うことができます。テストスイート (ベータ) にアクセスするには、アプリケーションランチャーから [Agentforce Studio (Agentforce スタジオ)] を開き、[Tests (テスト)] をクリックします。

[Tests (テスト)] が表示されている Agentforce スタジオのメニュー。

Agentforce Builder のプレビューですでにエージェントをテストしたのに、なぜテストスイート (ベータ) で一括テストをしなければならないのかと考えているかもしれません。ユーザーのあらゆる質問やエージェントとのやり取りを想定して、それをプレビューウィンドウで 1 つずつテストするのは、とても時間がかかります。テストスイート (ベータ) では、数十個、数百個のシナリオを同時にテストすることで作業を簡素化します。たとえば、自然言語で書かれたテストシナリオの .csv ファイルをアップロードすることもできますし、エージェントが実行するジョブに関連するテスト入力をテストスイート (ベータ) で AI に生成してもらうこともできます。

一括テストを実行すると、結果にはテストされた入力内容のほかに、予期されるサブエージェントとアクション、実際にコールされたトピックとアクション、予期される応答、各入力が合格か不合格かが表示されます。テスト入力が不合格となった理由を詳しく知りたい場合は、Agentforce Builder の [Preview (プレビュー)] パネルに入力内容をコピーして貼り付けると、プランキャンバスでエージェントが不合格の応答に至るまでに通ったパスを確認できます。これにより、指示をさらに調整でき、ユーザーエクスペリエンスの向上につながります。テストスイート (ベータ) とテストシナリオの記述や生成についての詳細は、「Agentforce: エージェントのテスト」を参照してください。

エージェントのテストでの考慮事項

従来のアプリケーションのテストでは、アプリケーションの構築を始める前から、あらゆる詳細を計画します。成功は、予測可能で再現性のある結果を出せること、つまり確定的であることによって判断されます。ソリューションは、意図したとおりに機能するか、そうでないかのどちらかです。一方、エージェントの開発でも事前のプランニングは必要ですが、エージェントを構築しながら調整、テスト、修正をしていきます。エージェントのテストは確率的です。つまり、生成 AI にはルールに基づくロジックが欠けているため、予測しにくく、ユニークで、ときには驚くような結果になることがあります。同じ入力でもさまざまな応答が生成されることがあり、その中には正しいものもあれば、誤った応答や、場合によってはハルシネーションが含まれることもあります。また、ユーザーがエージェントとどのようにやり取りするかをすべて予測するのは難しいため、エージェントを構築するときに、さまざまなシナリオを考慮してテストする必要があります。そうすることで、ユーザーの入力内容にマッチしない応答や不正確な応答を最小限に抑えます。

エージェントが本番環境で稼働可能かを判断する

エージェントの動作は確率的であるため、いつ本番環境で稼働可能と判断できるかは明確ではありません。どの企業も、さまざまなシナリオにおける合格・不合格のベースラインを独自に決める必要があります。正解は 1 つではなく、求められる精度のレベルは業界によって異なります。まずは、予約に関する問い合わせの対応など、人間が同じタスクを行った場合の精度を考慮し、それをベースラインとします。そうすれば、エージェントがその精度レベルを達成する、あるいは上回るように取り組むことができます。

テストは必ず Sandbox で行う

エージェントのテストによって CRM データが変更される可能性があるため、テストスイート (ベータ) は本番環境で使用せず、必ず Sandbox 環境で使用してください。

複数の条件を使用して応答を評価する

[Preview (プレビュー)] パネルで、入力に対して望む応答を得るには、いくつかの試行錯誤が必要になります。エージェントの構築は反復的なプロセスです。また、さまざまな種類の入力に対応するために、推敲や権限の確認、データの検証、指示への詳細やガードレールの追加など、いくつかの修正を行う必要があります。プランキャンバスのフィードバックやイベントログ、テストスイート (ベータ) で得られる情報は、求める精度に近い応答を得るために、エージェントのサブエージェント、アクション、指示のどこを調整すべきかを特定するのに役立ちます。

エージェントをテストするときに考慮すべき主なポイントと、それに対処する方法を紹介します。

テストでの考慮事項

エージェントを調整する方法

エージェントは指示に従ったか?

  • 既存の指示の表現を調整するか、さまざまな種類の入力に対応するために指示を追加する。

応答は正確で完全で読みやすいか?

  • エージェントが適切なデータにアクセスしていることを確認する。
  • アクションや指示を小さく分割して個別に対応できるようにする。
  • 会社の語調やトーンに合わせて指示の表現を調整する。

応答はデータでグラウンディングされているか?

  • 適切なデータを呼び出すように指示を修正する。
  • エージェントに、必要なすべてのデータにアクセスする権限があることを確認する。
  • アクセスしているデータが最新かつ正確であることを確認する。

応答はブランドボイスに合っているか?

  • 自社で使用している用語や表現に合わせて指示を調整する。
  • 言語設定タブで語調を調整する。

応答するまでどれぐらいかかったか?

  • 指示を明確にする。
  • アクションや指示を小さく分割する。

応答にバイアスや有害性があるか?

  • ガードレールを調整するか、指示に追加する。

応答は毎回信頼性が高いか?

  • エージェントの応答が精度のベースラインを達成または上回っているかを判定する。

テストのコスト

テストで最後に考慮すべき点は、テストを実行するためのコストです。テストスイート (ベータ) でエージェントをテストすると、要求やクレジットを消費する場合があります。こうした要求やクレジットは、組織に対してコストが発生する、生成 AI の請求可能な利用状況メトリクスです。詳細は、生成 AI の請求可能な利用状況の種別に関するヘルプドキュメントを参照するか、アカウントエグゼクティブにお問い合わせください。

まとめ

エージェントのテストには、従来のアプリケーションのテストとは異なる考え方と進め方が求められます。エージェントの応答に影響を与える可能性のあるさまざまな変数を考慮すれば、エージェントテストの成功が従来のソフトウェアテストよりも主観的になるのは不思議ではありません。Agentforce のテストツールを使いこなし、エージェントのパフォーマンスに影響する要因を軽減する方法を理解していると、望む精度をより迅速に達成することができます。次の単元では、テストの進め方を示すエージェントテスト計画を作成することの重要性を学習します。

リソース

Salesforce ヘルプで Trailhead のフィードバックを共有してください。

Trailhead についての感想をお聞かせください。[Salesforce ヘルプ] サイトから新しいフィードバックフォームにいつでもアクセスできるようになりました。

詳細はこちら フィードバックの共有に進む