5 ステップのテスト計画を使用してエージェントを調整する

学習の目的

この単元を完了すると、次のことができるようになります。

エージェントのテストを始める前にテスト計画を作成しておくことが重要である理由を説明する。
エージェントテストの 5 ステップ計画について説明する。

テスト計画に従う理由

エージェントのテストは、信頼性の高いエージェントをリリースするための基盤です。Agentforce スタジオのツールは、計画したタスクをエージェントが適切に処理できることを確認するためのさまざまな方法を提供します。前の単元で学んだとおり、ユーザーがエージェントとやり取りするさまざまなパターンを徹底的にテストすることは、簡単ではありません。多くの変数が関係しているため、始める前にテスト計画を立てることが賢明です。この単元では、Agentforce Builder でエージェントを調整した後に行うテストについて学習します。

エージェントをテストするための 5 ステップ計画

AI エージェントテストループは、エージェントを微調整してユーザー向けに準備するためのステップごとの計画です。テストシナリオを作成し、評価メトリクスを選択し、自動テストを実行できます。その結果を検証し、フィードバックを活用して、エージェントの各部分をさらに調整し、精度やパフォーマンスを向上させます。

エージェントをテストするための Agentforce の 5 ステップ計画。以下の説明に対応しています。

ステップ 1: テストシナリオを特定し、テストデータを作成する。

会話プレビューパネルでさまざまなユーザー入力を手動でテストし、その応答に基づいてエージェントを修正したら、テストセンターでのエージェントの一括テストに進むことができます。一括テストの最初のステップは、テストする入力の種類を特定することです。自然言語で独自のテストシナリオを作成してアップロードすることもできますし、エージェントのメタデータやアクセスが許可されているデータを使って、テストセンターで AI にテストケースを生成してもらうこともできます。テストシナリオを自分で記述する場合でも、AI に生成してもらう場合でも、優れたテストシナリオの条件を理解しておくと役立ちます。それを見てみましょう。

エージェントを計画したときに、その範囲と機能を定義しました。たとえば、予約エージェントには、予約に関するジョブやタスクを定義するトピックやアクションが含まれています。

予約管理トピックは、予約や旅程の確認、新規予約や既存の予約の変更などのタスクに対応します。
予約を作成または更新アクションは、予約が存在しない場合は新規予約を作成します。または、既存の予約が変更された場合、ゲストのレコードを更新します。

優れたテストシナリオを作成するために、Agentforce Builder でエージェントのトピックを確認します。ここでは、エージェントが動作する機能やパラメーターの範囲を説明する [Classification Description (分類の説明)] 項目や [Scope (範囲)] 項目を確認します。また、エージェントに動作方法を示す各指示も確認します。次に、エージェントが各シナリオで適切に動作する信頼性を確認するために、こうした詳細に対してテストする入力を記述 (またはテストセンターで生成) します。たとえば、予約管理トピックでは、次のようなテストシナリオが考えられます。

予約をしたい。
7 月に空室はありますか?
予約を変更する必要があります。
予約を確認したい。

エージェントを徹底的にテストするには、あらゆる種類の入力に対応できるよう、多数のシナリオを用意する必要があります。優れたテスト入力は、次のような特徴を持ちます。

量: さまざまなシナリオや例外的な状況に対応できる十分な量のテストケースがある。
多様性: エージェントの範囲外の入力やガードレールが試される入力を含め、実際のさまざまなユースケースでエージェントの適応性をテストできる幅広い入力、コンテキスト、バリエーションがある。
質: エージェントの目的と一致する、明確に定義された正確で関連性の高いテストケース。

テストセンターでは、テストシナリオを格納するために .csv ファイルを使用します。独自のテスト入力を記述する場合は、独自の .csv ファイルを作成します。AI にテスト入力を生成してもらう場合は、.csv ファイル形式のテストをダウンロードして編集できます。「Test an AI Agent in Agentforce Testing Center (Agentforce テストセンターで AI エージェントをテストする)」動画では、Agentforce テストセンターのしくみを説明しています。

テストを始めるときには、まずテストセンターで 10 ～ 20 個のテストシナリオを生成し、.csv ファイルをダウンロードしてエージェントのパラメーターと照らし合わせて確認することをお勧めします。これにより時間を節約できます。また、これらのシナリオを修正したり、新たに追加したりして、ユーザーから想定される入力の種類に合わせることができます。その後、エージェントのパフォーマンスが向上するにつれて、より大規模なテストシナリオを生成できるようになります。

ステップ 2: 評価のパラメーターを設定する。

テストセンターによって生成されたテストケースには、[New Test (新規テスト)] ワークフローの 4 つの画面に従って選択した設定が含まれます。テストの基本情報 (テスト名やテスト対象のエージェントなど) を入力した後、ユーザーや会話コンテキストに関する情報をシミュレーションするコンテキスト変数を含めることもできます。また、テストセンターでエージェントのパフォーマンスと質がどのように評価されるかも選択できます。エージェントが信頼でき、適切な動作をしていることを確認するために、すべての評価条件オプションをテストすることをお勧めします。

[Next (次へ)] または [Previous (前へ)] をクリックすると、エージェントのテストケースを生成する 4 つのステップが表示されます。

[New Test (新規テスト)] ワークフローを完了し、[Generate Test Cases (テストケースを生成)] をクリックすると、選択した条件に一致するテストのリストが表示されます。自分で記述したテスト入力の .csv ファイルをアップロードした場合、リストにはそれが表示されます。テストケースでは、エージェントが入力 (発言とも呼ばれる) をどのように処理するかを検証します。各テストケースには、次が含まれます。

発言: エージェントに対する入力クエリ
予期されるトピック: エージェントが評価すべき関連トピック
予期されるアクション: エージェントが実行すべき関連アクション
予期される応答: 平易な言葉で記述された望ましい結果

実行時に評価される各テストシナリオの項目が表示されているテストセンター。

ステップ 3: テストを実行して結果を評価する。

[New Test (新規テスト)] ワークフローを完了したら、[Run Test Suite (テストスイートを実行)] をクリックしてテストを実行し、パフォーマンスを確認します。[Actual Topic (実際のトピック)]、[Topic Test Result (トピックテスト結果)]、[Actual Actions (実際のアクション)]、[Action Test Result (アクションテスト結果)] の各項目のテスト結果を確認します。

ステップ 4: 結果を検証する。

生成されたテストは多くのシナリオに対応しますが、エージェントが期待どおりに応答すること、また有害な結果や望ましくない結果を生み出していないことを確認するために、人間によるレビューを行うことが重要です。また、このステップで入力と応答をレビューすることで、語調の不一致や文脈によって不正確になる場合など、見落としがちな細かい点も発見できます。

合格と不合格が表示されている、テストセンターで完了した一括テスト。

ステップ 5: 結果を確認して反復する。

テストは反復的なプロセスです。許容される精度に達するまで、テスト結果を使って、トピック、アクション、指示を調整します。テストは、エージェントがアクセスできる古いデータや、調整が必要な権限を明らかにするのにも役立ちます。

エージェントを再テストする

エージェントが進化するのと同様にビジネスも進化します。精度と信頼性を維持するには再テストが重要です。エージェントが使用するデータの変更、権限の変更、トピック、アクション、プロンプトの更新、関連する製品機能やビジネスプロセスの変更など、エージェントのパフォーマンスに影響を与える要因は数多くあります。継続的なテストを行うことで、ビジネス目標が変化してもエージェントを進化させ、常に高い関連性を保つことができます。

まとめ

テストは、信頼性の高い効率的な AI エージェントを構築するための基盤です。テスト計画に従うことで、Agentforce エージェントがユーザーにとって信頼でき、役立つものであることを保証できます。

テストのシナリオ

Maria は大手ホテルチェーン Global Stay Resorts の Agentforce 管理者です。彼女は、顧客予約に対応するよう設計された AI エージェントの調整を任されました。エージェントは Agentforce Builder で手動テスト済みです。Maria は、本格稼働前に信頼性と精度を確認するために、より包括的なテスト計画の実行に進む準備が整っています。彼女が特に重視しているのは、さまざまなユーザー入力の予測と、エージェントの応答が自社のブランドボイスやビジネスプロセスに合っていることの確認です。

予想時間

トピック

ヘルプをお探しですか?

Agentforce のリソース