エージェント応答をトリアージする
学習の目的
この単元を完了すると、次のことができるようになります。
- ヒューリスティックスコアに基づいてエージェントの動作の設計に優先度を付ける。
- エージェントの動作の評価と改善の継続的なループを確立する。
トリアージで問題に対処する
エージェントの失敗は必ずしも明らかではありません。従来のデジタルエクスペリエンスとは異なり、エージェントはユーザーの問題を解決できなくても応答を生成し続けることがあります。プロンプトが不十分、データが欠落している、またはインテントが不明確な場合、もっともらしく聞こえるものの、ユーザーの成功につながらない回答が生成される可能性があります。エクスペリエンスヒューリスティックは、チームがこうした微妙な失敗を検出し、修正すべき部分に優先順位を付けるのに役立ちます。
ヒューリスティック評価と重大度マッピングにより、設計担当者は動作パターンのどこで価値が失われるか、また知覚された失敗によってどれだけの価値が損なわれる恐れがあるかを把握できます。これにより、実際のエクスペリエンスに最も大きな影響を与える部分に優先的に介入できます。
これは設計担当者にとってもう 1 つの重要な転換点です。最も必要とされる部分に注力することは以前から行われていますが、エージェントにはバグや障害だけでなく、より広い視点での継続的な評価と改善のプロセスが必要です。ヒューリスティックは、ユーザーの期待とエージェントログの現実とのギャップを設計担当者が特定するのに役立ちます。重大度マッピングは、設計担当者が最も緊急に埋めるべきギャップを特定し、ほかの関係者が理解できる言葉でプロセスを説明するのに役立ちます。
評価がエクスペリエンスを左右する
エージェントのパフォーマンスを評価することは、そのエージェントのグラウンドトゥルースを維持するために不可欠です。つまり、設計担当者が定義した「良い」動作にエージェントが準拠していることを確認することです。エージェントはインタラクションから自ら学ぶことができますが、時間をかけてエージェントの動作を真に形成するのは設計介入です。設計担当者は、エージェントインタラクションでの失敗と成功の定義という役割を担うにあたり、予期しない、または効果的でない動作パターンに対応できることが求められます。
従来の設計担当者の役割が技術的な合否の評価であったのに対し、エージェンティック設計担当者はエージェントログの豊富なインサイトを最大限に活用する必要があります。これらのログにより、設計担当者は会話の流れを確認でき、エージェントが異なる動作ができた可能性のある、不満や失敗のポイントも把握できます。ログを調べ、信頼性、親しみやすさ、正確性などのヒューリスティック要素を確認するとき、評価担当者は次の 2 つの重要な考え方に従います。
- すべての評価はユーザーインテントを起点とし、そこから展開する。
- 評価では、失敗率だけでなく、失敗の重大度に優先度を付ける。
これを念頭に置くことで、設計担当者は最も重要なことに集中できます。ユーザーに具体的な結果をもたらし、最も影響の大きい失敗から修正することです。では、評価の具体的な内容を見ていきましょう。

[Google Docs Gemini を使用して AI が生成した画像。]
ヒューリスティックを適用してエージェントを評価する
Salesforce Lightning Design System のエージェントヒューリスティックと失敗分類を使用して、設計担当者がエージェントのインタラクションログにスコアを付ける方法と、そのスコアを次のステップに活かす方法を見ていきます。
まず、評価担当者はスコアを付けるときにいくつかの点に留意する必要があります。
- ユーザーの目標から始める: すべてはここから始まる。
- 根拠に基づく: メトリクスを引用し、推測しない。
- 連鎖的な失敗を考慮する: 1 つの根本的な失敗が、後続の失敗につながることがある。
- 矛盾を探す: 親しみやすさなどのヒューリスティックに合格することが、事実性などの別のヒューリスティックの失敗と矛盾していないか。
- 礼儀正しさは合格ではない: タスクの価値に焦点を当てる。
- 一貫性: ヒューリスティック全体で同じ基準を適用する。
- すべての合格/不合格/該当なしの判定には理由が必要: ターン番号、観察された動作、影響を必ず記載する。
- 序盤の成功は後半の失敗を免除しない: エージェントがターン 1 で成功しても、ターン 5 で同じヒューリスティックに失敗した場合は、失敗。
- 合格の場合は何がうまくいったかを説明する: どの特定の動作が成功を示したか。
- 不合格の場合は何がうまくいかなかったかを説明する: エージェントはどうすべきだったか。ユーザーエクスペリエンスにどのような影響を与えたか。
次に、評価担当者の目標は、会話自体のコンテキストを理解することです。それには、できるだけ簡潔かつ直接的に以下の質問に答えてください。
- ユーザーは何を達成しようとしていたか?
- エージェントは何を提供したか?
- ユーザーは目標を達成したか? (はい、一部達成、いいえ)
- どこで価値が失われたか? (ターンを特定し、結果を説明する。)
ユーザーインテントを踏まえ、インタラクション全体で何が起きたかを十分に理解したうえで、評価担当者は各ヒューリスティックを評価し、合格または不合格を判定します。参考として、前の単元のヒューリスティック表を確認してください。P0、P1、P2 に関連する重大度ランクが説明されています。
各ヒューリスティックについて、設計担当者は合格、不合格、または該当なし (特定の会話でヒューリスティックが該当しない、または適用されない場合) を選択します。これらの評価では、ターン、観察された動作、ユーザーへの影響も記載します。すべてのヒューリスティックにスコアが付いたら、評価担当者は会話の最終スコアに進むことができます。この最終スコアは平均に基づくものではありません。1 つの重大な失敗がユーザーエクスペリエンスに大きな影響を与える可能性があるためです。代わりに、観察された最も高い重大度ランクに基づいて会話のスコアが付けられます。
結果 |
最終スコア |
|---|---|
P0 ランクで不合格になったヒューリスティックがある。 |
P0: 重大なシステム障害 |
P0 失敗はないが、P1 ランクで不合格になったヒューリスティックがある。 |
P1 ユーザーインテントが満たされない |
P0 または P1 失敗はないが、P2 ランクで不合格になったヒューリスティックがある。 |
P2 価値が限られている |
すべてのヒューリスティックが合格。 |
Pass (合格) |
最後に、ログにスコアが付いたら、評価担当者は調査結果と次のステップを記録します。記載する内容は次のとおりです。
- スコアを決定する主なヒューリスティック
- 根本的な失敗 (最初にうまくいかなかったこと)
- 連鎖的な失敗
- ユーザーへの影響 (失われた価値)
- 是正措置
評価プロセスの最後に、設計担当者は会話で何が起きたか、次に取るべきアクションの優先度の両方について、より深く理解できます。エージェントに関して言えば、最良の結果を得るには、優れた初期ルールセットを定義するだけでなく、インサイトを活用した設計介入を行うことが重要です。設計担当者は、ヒューリスティックと重大度ランクを活用して、ユーザーにとっての真の成功を提供することを目指してエージェントの動作を調整します。これは、エージェントの動作とユーザーのニーズを合致させることで定義されます。
AI エージェントの評価は、不具合を特定するだけではありません。大切なのは、ユーザーにとって最も重要なことを理解し、それに応じて改善箇所に優先度を付けることです。トリアージと改善に体系的に取り組むことで、エージェント動作を継続的に形成し、意味のある、信頼性の高いエクスペリエンスを提供できます。