AI エージェントの価値を評価する

学習の目的

この単元を完了すると、次のことができるようになります。

技術的な障害とユーザーエクスペリエンスの失敗を区別する。
ヒューリスティック優先度モデルを使用してエージェントの失敗をトリアージする。

エージェントの価値を評価する方法

この単元では、技術的なベンチマークだけでなく、ユーザーの視点から AI エージェントを評価する方法を学びます。3 ランクの失敗分類を確認し、信頼性と採用率を高めるための実践的な設計手法を学びます。

「機能すること」と「価値があること」の違い

画像の片側には、肯定的な結果を示す画面が表示されています。一方、現場にいる人は不明確な案内に困惑しています。これは、エージェントにとって技術的な成功に見えるものが、ユーザーにとって依然として混乱を招く体験になり得ることを視覚化したものです。

[Google Docs Gemini を使用して AI が生成した画像。]

成功とは、モデルのベンチマーク性能だけではありません。ユーザーが感じる価値と、ツールへの信頼が重要です。ユーザーがエージェントは機能しないと言う場合、通常は 404 エラーやシステムクラッシュのことを指しているわけではありません。AI のインタラクションは複雑です。ユーザーは会話が「おかしい」と感じた理由を説明する技術的な語彙を知らないことが多く、漠然とした不満を述べることになります。

たとえば、ユーザーがエージェントに「最もよく売れている商品の現在の在庫レベルはどのくらいですか?」と尋ねます。エージェントは「在庫データベースにはアクセスできません。その情報はサプライチェーンダッシュボードで確認できます。」と応答します。

技術的に言えば、これは成功したインタラクションです。エージェントはハルシネーションを起こさず、自身の制限を正確に特定してユーザーを適切に誘導しました。ただし、ユーザーにとっては、これは失敗と言えます。タスクを完了するために必要な回答が得られませんでした。ユーザーにとって、エージェントは機能しなかったのです。

エージェント品質ヒューリスティック

ヒューリスティックは、設計担当者が品質を評価するための経験則として長く使われてきました。ただし、「Nielsen Norman 10 Usability Heuristics (Nielsen Norman の 10 のユーザビリティヒューリスティック)」のような従来のヒューリスティックは、人間が静的なインターフェースをどれだけうまく操作できるかを測定するために作られたのに対し、エージェント品質ヒューリスティックはエージェントが動的なコンテキストをどれだけうまく処理できるかを測定するものです。

AI の世界では、ヒューリスティックは単なるユーザビリティチェックではなく、パフォーマンス基準です。単純なシステムの成功 (コードが正しく実行されたか) から、ユーザーが知覚する成功へと移行します。つまり、応答がユーザーにとって価値があり、タイムリーで、信頼性が高く、一貫して頼れるものであることを確認します。

これが重要なのは、エンドユーザーに大規模に対応するには、優れたユーザーエクスペリエンスとはどのようなものか、また基準を満たさないユーザーエクスペリエンスをどのように評価するかについて、明確で共通の定義が必要だからです。これを実現するには、ユーザーの視点を中心に、エージェントの成功を示すさまざまな指標を検討し、それぞれの影響の重大度にマッピングします。

エージェントの失敗の 3 ランク

Salesforce では、失敗ポイントの分類を使用して、特定の失敗がユーザーにどれほど影響するかを判断します。これにより、チームは「壊れている」という表現から、ユーザーが不満を感じている具体的な理由の特定へと移行できます。

Severity (重大度)	Tier (ランク)	説明
P0	レッドアラート: システム障害	最も重大度が高い。エージェントがクラッシュ、タイムアウト、または事実として危険な無意味なハルシネーションを生成します。
P1	的外れ: ユーザーインテントが満たされない	エージェントは機能しているが、ユーザーの目標と一致しない出力を提供します。リクエストの「何」または「なぜ」を誤解しています。
P2	使えるが、物足りない: ユーザー価値が限られている	エージェントは機能しており、正確ですが、出力の品質が低い、冗長すぎる、または実際の回答を得るためにユーザーがさらに作業する必要があります。

P0 は通常、技術的な品質保証で検出されますが、P1 と P2 はユーザーの不満や離脱リスクが生じやすい領域です。従来のテストでは特定が難しいものの、これらの失敗はエンドユーザーにとって一目瞭然です。各ヒューリスティックは重大度のランクに対応しているため、設計担当者は評価で確認したインタラクションを機能的なトリアージシステムに変換できます。

ヒューリスティック	スコアリングの診断基準	重大度ランクのマッピング
事実性と信頼性	応答はその時点で正確だと認識されているか。関連性があり、ハルシネーション、矛盾、エラーがないか。エージェントは以前に確立されたコンテキストや情報と矛盾しないか。	P0
効果的になる	システムが設計どおりに動作していても、出力はユーザーの実際のインテントを満たしているか。	P1
応答性	最初のプロンプトが曖昧な場合、エージェントは積極的に明確化のための質問をするか。	P1
記憶と UI コンテキスト	UI ページのコンテキストや過去のターンの情報を効果的に活用して、ユーザーに繰り返しを求めることなく、より関連性の高い応答を提供しているか。	P1
信頼できる	エージェントは適切な境界と権限の範囲内で動作しているか。実行可能な代替手段を提示せずに、制限を伝えるだけ、または回避するだけにとどまっていないか。	P1
適応性	ユーザーの否定的なフィードバック (「そういう意味ではありません」など) に基づいて調整するか。	P1
決断力	内部システムの複雑さを露呈したり、過度に慎重になったり、意思決定の停滞を招いたりすることなく、明確な方向性と自信を持ってユーザーを前進させるか。	P1
会話調である	平易な言葉を使用し、過度にノイズが多かったり冗長になったりしないか。	P2
一貫性	ブランドボイス、用語、書式はターン全体で一貫しているか。	P2
親しみやすさ	インクルーシブで、アクセシブル (Web Content Accessibility Guidelines 2.2) で、使いやすいか。	P2
有用性	セルフサービスへの誘導ではなく、実行可能な情報と次のステップを提供しているか。	P2

エージェントに対するユーザーの主観的なエクスペリエンスに影響する要因を理解することで、設計担当者はエージェントの初期成功と継続的な改善を計画できます。ヒューリスティックはエージェントの動作を評価するための共有基準を提供し、エージェントの失敗をわかりやすい優先度ランクにマッピングすることで、摩擦が生じる瞬間を特定し、介入しやすくなります。次の単元では、設計担当者がヒューリスティック評価のインサイトをエージェント失敗のトリアージにどのように活用するかを詳しく確認します。

リソース

Salesforce: Your AI Agent Works, But Do Your Users Think It’s Worth It? (AI エージェントは機能しているが、ユーザーはその価値を認めているか?)

予想時間

トピック

ヘルプをお探しですか?

Agentforce のリソース