Skip to main content

5 ステップのテスト計画を使用してエージェントを調整する

学習の目的

この単元を完了すると、次のことができるようになります。

  • エージェントのテストを始める前にテスト計画を作成しておくことが重要である理由を説明する。
  • エージェントテストの 5 ステップ計画について説明する。

テスト計画に従う理由

エージェントのテストは、信頼性の高いエージェントをリリースするための基盤です。Agentforce スタジオのツールは、計画したタスクをエージェントが適切に処理できることを確認するためのさまざまな方法を提供します。前の単元で学んだとおり、ユーザーがエージェントとやり取りするさまざまなパターンを徹底的にテストすることは、簡単ではありません。多くの変数が関係しているため、始める前にテスト計画を立てることが賢明です。この単元では、Agentforce Builder でエージェントを調整した後に行うテストについて学習します。

エージェントをテストするための 5 ステップ計画

AI エージェントテストループは、エージェントを微調整してユーザー向けに準備するためのステップごとの計画です。テストシナリオを作成し、評価メトリクスを選択し、自動テストを実行できます。その結果を検証し、フィードバックを活用して、エージェントの各部分をさらに調整し、精度やパフォーマンスを向上させます。

エージェントをテストするための Agentforce の 5 ステップ計画。以下の説明に対応しています。

ステップ 1: テストシナリオを特定し、テストデータを作成する。

[Preview (プレビュー)] パネルでさまざまなユーザー入力を手動でテストし、その応答に基づいてエージェントを修正したら、テストスイート (ベータ) でのエージェントの一括テストに進むことができます。一括テストの最初のステップは、テストする入力の種類を特定することです。自然言語で独自のテストシナリオを作成してアップロードすることもできますし、テストスイート (ベータ) で [Create test suite (テストスイートを作成)] をクリックし、エージェントのメタデータやアクセスが許可されているデータを使って、AI にテストケースを生成してもらうこともできます。テストシナリオを自分で記述する場合でも、AI に生成してもらう場合でも、優れたテストシナリオの条件を理解しておくと役立ちます。それを見てみましょう。

エージェントを計画したときに、その範囲と機能を定義しました。たとえば、Coral Cloud サービスエージェントには、体験に関するジョブやタスクを定義するサブエージェントやアクションが含まれています。

  • Experience Management (体験管理) サブエージェントは、Coral Cloud Resorts での体験予約に関連する問い合わせに対応します。たとえば、新規予約、セッション予約の変更、体験内容の詳細に関する問い合わせなどです。
  • Create Experience Session Booking (体験セッション予約を作成) アクションはフローを使用して、1 人または複数のゲストの新規体験予約を作成します。

優れたテストシナリオを作成するために、Agentforce Builder でエージェントのサブエージェントを確認します。ここでは、エージェントが動作する機能やパラメーターの範囲を説明する [Classification Description (分類の説明)] 項目や [Scope (範囲)] 項目を確認します。また、エージェントに動作方法を示す各指示も確認します。次に、エージェントが各シナリオで適切に動作する信頼性を確認するために、こうした詳細に対してテストする入力を記述 (またはテストスイート (ベータ) で生成) します。たとえば、Experience Management (体験管理) サブエージェントでは、次のようなテストシナリオが考えられます。

  • _____________ 体験について教えてください。
  • 7 月に _____________ 体験の予約はありますか?
  • 予約を変更する必要があります。
  • 予約を確認したいです。

エージェントを徹底的にテストするには、あらゆる種類の入力に対応できるよう、多数のシナリオを用意する必要があります。優れたテスト入力は、次のような特徴を持ちます。

  • : さまざまなシナリオや例外的な状況に対応できる十分な量のテストケースがある。
  • 多様性: エージェントの範囲外の入力やガードレールが試される入力を含め、実際のさまざまなユースケースでエージェントの適応性をテストできる幅広い入力、コンテキスト、バリエーションがある。
  • : エージェントの目的と一致する、明確に定義された正確で関連性の高いテストケース。

テストスイート (ベータ) では、テストシナリオを格納するために .csv ファイルを使用します。独自のテスト入力を記述する場合は、独自の .csv ファイルを作成します。AI にテスト入力を生成してもらう場合は、.csv ファイル形式のテストをダウンロードしてそのまま使用するか、編集することもできます。

Note

テストを始めるときには、まずテストスイート (ベータ) で 10 ~ 20 個のテストシナリオを生成し、.csv ファイルをダウンロードしてエージェントのパラメーターと照らし合わせて確認することをお勧めします。これにより時間を節約できます。また、これらのシナリオを修正したり、新たに追加したりして、ユーザーから想定される入力の種類に合わせることができます。その後、エージェントのパフォーマンスが向上するにつれて、より大規模なテストシナリオを生成できるようになります。

ステップ 2: 評価のパラメーターを設定する。

テストスイート (ベータ) によって生成されたテストケースには、[New Test (新規テスト)] ワークフローの 4 つの画面に従って選択した設定が含まれます。テストの基本情報 (テスト名やテスト対象のエージェントなど) を入力した後、ユーザーや会話コンテキストに関する情報をシミュレーションするコンテキスト変数を含めることもできます。また、テストスイート (ベータ) でエージェントのパフォーマンスと質がどのように評価されるかも選択できます。エージェントが信頼でき、適切な動作をしていることを確認するために、すべての評価条件オプションをテストすることをお勧めします。

[Next (次へ)] または [Previous (前へ)] をクリックすると、エージェントのテストケースを生成する 4 つのステップが表示されます。

[New Test (新規テスト)] ワークフローを完了し、[Generate Test Cases (テストケースを生成)] をクリックすると、選択した条件に一致するテストのリストが表示されます。自分で記述したテスト入力の .csv ファイルをアップロードした場合、リストにはそれが表示されます。テストケースでは、エージェントが入力 (発言とも呼ばれる) をどのように処理するかを検証します。各テストケースには、次が含まれます。

  • 発言: エージェントに対する入力クエリ
  • 予期されるサブエージェント: エージェントが評価すべき関連サブエージェント
  • 予期されるアクション: エージェントが実行すべき関連アクション
  • 予期される応答: 平易な言葉で記述された望ましい結果

実行時に評価される各テストシナリオの項目が表示されているテストスイート (ベータ)。

ステップ 3: テストを実行して結果を評価する。

[New Test (新規テスト)] ワークフローを完了したら、[Run Test Suite (テストスイートを実行)] をクリックしてテストを実行し、パフォーマンスを確認します。実際のエージェント応答のテスト結果と、[New Test (新規テスト)] ワークフローで選択した各評価基準を確認できます。

ステップ 4: 結果を検証する。

生成されたテストは多くのシナリオに対応し、合格か不合格かを判定しますが、ユーザーがエージェントとどのようにやり取りするか、エージェントが期待どおりに応答しているか、有害または望ましくない結果を生み出していないかを確認するために、人間によるレビューを行うことが重要です。また、このステップで入力と応答をレビューすることで、語調の不一致や文脈によって不正確になる場合など、見落としがちな細かい点も発見できます。

合格と不合格が表示されている、テストスイート (ベータ) で完了した一括テスト。

ステップ 5: 結果を確認して反復する。

テストは反復的なプロセスです。許容される精度に達するまで、テスト結果を使って、サブエージェント、アクション、指示を調整します。テストは、エージェントがアクセスできる古いデータや、調整が必要な権限を明らかにするのにも役立ちます。

エージェントを再テストする

エージェントが進化するのと同様にビジネスも進化します。精度と信頼性を維持するには再テストが重要です。エージェントが使用するデータの変更、権限の変更、サブエージェント、アクション、プロンプトの更新、関連する製品機能やビジネスプロセスの変更など、エージェントのパフォーマンスに影響を与える要因は数多くあります。継続的なテストを行うことで、ビジネス目標が変化してもエージェントを進化させ、常に高い関連性を保つことができます。

まとめ

テストは、信頼性の高い効率的な AI エージェントを構築するための基盤です。テスト計画に従うことで、Agentforce エージェントがユーザーにとって信頼でき、役立つものであることを保証できます。

リソース

テストのシナリオ

Maria は大手ホテルチェーン Global Stay Resorts の Agentforce 管理者です。彼女は、顧客予約に対応するよう設計された AI エージェントの調整を任されました。エージェントは Agentforce Builder で手動テスト済みです。Maria は、本格稼働前に信頼性と精度を確認するために、より包括的なテスト計画の実行に進む準備が整っています。彼女が特に重視しているのは、さまざまなユーザー入力の予測と、エージェントの応答が自社のブランドボイスやビジネスプロセスに合っていることの確認です。

Salesforce ヘルプで Trailhead のフィードバックを共有してください。

Trailhead についての感想をお聞かせください。[Salesforce ヘルプ] サイトから新しいフィードバックフォームにいつでもアクセスできるようになりました。

詳細はこちら フィードバックの共有に進む