에이전트 테스트 도구 및 고려 사항 살펴보기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

에이전트 테스트의 중요성에 대해 설명합니다.
에이전트를 테스트하는 데 사용할 수 있는 도구를 설명합니다.
에이전트 테스트 시 고려해야 할 요소와 이를 완화하는 방법을 논의합니다.

시작하기 전에

이 모듈을 시작하기 전에, 다음 추천 콘텐츠를 먼저 완료해 보세요. 이 모듈이 제공하는 지식 기반은 다음 모듈을 기반으로 합니다.

소개

인공 지능(AI)과 AI 에이전트의 발전으로 소프트웨어 개발에 대한 사고방식이 달라지고 있습니다. 많은 조직에서 수년동안 Salesforce 솔루션을 관리하거나 맞춤 설정해 온 바로 그 Salesforce 관리자와 개발자들이 이제는 Agentforce 에이전트를 구축하는 업무를 책임지고 있습니다. 여기에는 이들의 기술, 사용 도구, 마음가짐(태도)의 변화가 요구됩니다. 아이디어 도출, 구성, 테스트, 배포, 관찰과 같은 익숙하고 전통적인 애플리케이션 수명 주기 관리(ALM) 단계가 에이전트 개발 수명 주기(ADL) 프로세스에도 적용되지만, 여기에 생성형 AI를 통합하면 특히 에이전트 테스트와 관련하여 일부 예기치 못한 상황이 더해질 수 있습니다.

아이디어 도출, 구성, 테스트, 배포, 관찰의 에이전트 개발 수명 주기의 다섯 가지 단계를 보여주는 원형 다이어그램.

이 모듈에서는 에이전트를 테스트하고 문제를 해결하는 데 사용할 수 있는 Agentforce Studio의 도구, 테스트에 도움이 되는 고려 사항, 에이전트 응답을 더 정확하고 예측 가능하게 하는 테스트 전략에 관해 살펴보겠습니다.

테스트의 이유

Agentforce: 에이전트 계획 뱃지를 획득했다면 Coral Cloud Resorts의 Nora Alami와 함께 고객 경험을 생성 및 관리할 수 있는 에이전트를 계획하는 과정을 진행했을 것입니다. 대상 그룹, 범위, 사용 사례, 가드레일, 수행할 작업 같은 기준을 정의하는 법에 대해 학습했죠. 이러한 사항들은 에이전트 성능이 여러분이 설계한 작업에 맞게 작동하는지 확인하기 위해 테스트 시 검증해야 하는 사항들과 동일합니다.

에이전트 테스트 및 문제 해결을 위한 도구

에이전트가 사용자 입력에 정확하고 예측 가능하게 응답하도록 만드는 것은 어려워 보일 수 있습니다. 특히 서브에이전트, 작업, 가드레일이 처리해야 하는 모든 사용자 요청을 고려할 때 더욱 그렇습니다. 아주 많은 변수가 작용하고 있는 상황에서는 부정확한 응답, 오류 메시지, 또는 환각의 원인이 지침, 작업, 데이터, 또는 권한 집합 내에 있을 수도 있습니다. 그래서 Agentforce Studio는 에이전트가 신뢰할 수 있고 예측 가능한 응답을 제공할 준비가 되었다고 확신할 수 있도록 여러분에게 두 가지 수준의 테스트, 즉 Agentforce 빌더의 미리보기 테스트와 테스트 도구 모음(베타)의 대규모 테스트를 제공합니다.

Agentforce 빌더 테스트 및 문제 해결 도구

Agentforce 빌더는 대화를 테스트하고 에이전트가 응답을 도출하는 과정을 검토할 수 있는 여러 도구를 제공하므로, 이를 활용하여 개선한 후 사용자에게 에이전트를 제공할 수 있습니다. 함께 살펴보겠습니다.

미리보기 (1): 미리보기 패널은 에이전트와 대화를 직접 시작해 볼 수 있는 Agentforce 빌더의 단계입니다. 미리보기 패널에서는 사용자가 에이전트와 실제 일어날 수 있는 대화를 나눠보면서 응답이 자신이 의도한 대로 제공되는지 확인할 수 있습니다. 미리보기 모드 (2)에는 두 가지가 있습니다.

Simulate(시뮬레이션) - 모의 데이터 및 작업을 통해 에이전트를 테스트합니다.
Live Test(라이브 테스트) - 실제 데이터를 사용해 에이전트의 성능을 확인합니다.

미리보기에서 생성된 출력을 확인하여 에이전트가 유용하고 적절한 응답을 제공하는지, 올바른 작업을 호출하는지, 비즈니스 프로세스를 올바르게 참조하는지, 자신이 설정한 가드레일을 벗어나지 않는지 확인할 수 있습니다.

상호 작용 요약 (3): 에이전트가 응답을 반환하기 위해 사용한 단계들(호출한 서브에이전트와 추론 과정 포함)을 개괄적으로 검토할 수 있습니다.

Agentforce 세션 추적 (4): 에이전트 세션에서 발생한 모든 세부 정보를 확인하여 에이전트와의 상호 작용을 조사하거나 관련 문제를 해결할 수 있습니다. 각 세션의 세션 ID 아래에 모두 숨겨진 추론 엔진 실행, 작업, 프롬프트 및 게이트웨이 입력/출력, 오류 메시지, 최종 응답을 텍스트 또는 코드 보기 (5)로 검토합니다. Agentforce 세션 추적에는 Data 360이 필요합니다.

Agentforce 빌더 미리보기 패널에는 'Full Moon Beach Experience 세션을 예약하고 싶습니다'라는 메시지와 'Full Moon Beach Experience 세션 예약을 진행하기 위해서는 먼저 고객님의 정보를 확인해야 합니다. 이메일 주소와 회원 번호를 입력해 주시겠습니까?'라는 응답이 표시됩니다. 또한 응답에 도달하기 위해 에이전트가 사용한 입력, 서브에이전트, 추론, 결과 평가를 포함한 단계들과 세션 추적 세부 정보 및 세션 ID를 보여주는 상호 작용 요약 패널도 표시됩니다.

에이전트를 배포한 이후에는 Agentforce 세션 추적 기능을 유용하게 활용할 수 있습니다. 사용자가 에이전트에 전달된 입력과 그에 대한 응답을 비롯하여, 에이전트와 어떤 방식으로 대화를 주고받았는지 확인할 수 있습니다. 이렇게 하면 문제를 발견하고 이를 해결하거나 예상하지 못한 입력을 처리하도록 에이전트를 조정하는 데 도움이 됩니다. 세션 추적을 활용하면 추가적인 가드레일을 설정해야 하는지, 더욱 맞춤 설정된 응답을 제공하도록 지침이나 작업을 수정해야 하는지 파악할 수 있습니다.

Agentforce Studio 테스트 도구 모음

Agentforce 빌더에서 에이전트의 성능 조정을 마쳤다면 Agentforce Studio 테스트 도구 모음(베타)에서 배치 테스트를 수행할 수 있습니다. 테스트 도구 모음(베타)에 액세스하려면 App Launcher(앱 시작 관리자)에서 Agentforce Studio를 열고 Tests(테스트)를 클릭합니다.

Agentforce Studio 메뉴에서 테스트를 선택한 모습.

이미 Agentforce 빌더의 미리보기에서 에이전트를 테스트했는데, 테스트 도구 모음(베타)에서 배치 테스트를 해야 하는 이유에 관해 의문을 가질 수 있을 겁니다. 사용자가 질문하거나 에이전트와 상호 작용을 하는 모든 방식을 고려해 이를 Preview(미리보기) 창에서 하나씩 테스트하는 데는 상당한 시간이 걸릴 것입니다. 테스트 도구 모음(베타)은 테스트를 간소화하여 수십, 수백 가지의 시나리오를 한 번에 테스트할 수 있게 해줍니다. 예를 들어 자연어로 작성된 테스트 시나리오의 .csv 파일을 업로드하거나 AI를 사용하여 에이전트가 수행하는 작업과 관련된 테스트 입력을 생성해 달라고 테스트 도구 모음(베타)에 요청할 수 있습니다.

배치 테스트를 실행하면 예상했던 서브에이전트 및 실제 서브에이전트, 호출된 작업, 예상 응답, 각 입력의 통과/실패 여부와 함께 테스트된 입력을 테스트 결과에서 확인할 수 있습니다. 테스트 입력이 실패한 원인에 관해 더 자세한 정보가 필요한 경우, 해당 입력을 Agentforce 빌더 Preview(미리보기) 패널에 복사 및 붙여 넣기를 하고 에이전트가 채택한 경로를 검토하여 계획 캔버스에서 실패한 응답에 도달할 수 있습니다. 이렇게 하면 지침을 추가로 수정하여 사용자 경험을 개선할 수 있습니다. 테스트 도구 모음(베타) 및 테스트 시나리오 작성 또는 생성에 관한 자세한 정보는 Agentforce: 에이전트 테스트에서 확인하세요.

에이전트 테스트 고려 사항

전통적인 애플리케이션 테스트 과정은 애플리케이션 구축을 시작하기도 전에 애플리케이션의 모든 세부 사항을 미리 계획합니다. 성공 여부는 예측할 수 있고 반복할 수 있는 결과를 생성하는지로 측정되며 이는 결정론적 방식입니다. 솔루션은 의도한 대로 작동하거나 그렇지 않거나 둘 중 하나입니다. 반면 에이전트 개발 역시 처음부터 계획해야 하지만, 구축하는 과정 동안에 에이전트를 개선, 테스트, 수정합니다. 에이전트 테스트는 확률적인 방식입니다. 즉, 생성형 AI는 규칙 기반 로직이 부족하기 때문에 결과는 덜 예측 가능하거나, 고유할 수 있으며 때로는 놀라울 수도 있습니다. 동일한 입력값이라도 여러 다른 응답이 생성될 수 있지만 여전히 올바른 응답, 일부 부정확한 응답, 심지어 때로는 환각이 생성될 수도 있습니다. 또한 사용자가 에이전트와 상호 작용할 수 있는 모든 방식을 예측하는 것은 어려울 수 있으므로 에이전트를 구축할 때 다양한 시나리오를 고려하고 테스트해야 합니다. 이렇게 하면 사용자의 입력에 맞지 않거나 정확하지 않은 응답을 최소화할 수 있습니다.

에이전트의 프로덕션 준비 시점 판단하기

에이전트 동작의 확률적 특성으로 인해 에이전트의 프로덕션 준비 시점을 판단하는 것이 약간 명확하지 않을 수 있습니다. 모든 회사는 자체적으로 다양한 시나리오에서 통과/실패 비율의 기준선을 결정해야 합니다. 정답이 하나만 있는 것은 아니며, 원하는 정확도의 수준도 산업별로 다를 수 있습니다. 좋은 출발점은 사람이 동일한 작업(예: 예약 문의 처리)을 얼마나 정확하게 수행할 수 있을지 고려하고 이를 기준선으로 사용하는 것입니다. 그런 다음 에이전트가 정확도 수준을 충족하거나 초과하도록 노력할 수 있습니다.

항상 Sandbox에서 테스트하기

에이전트를 테스트하면 CRM 데이터가 수정될 수 있으므로 항상 프로덕션 환경이 아닌 Sandbox 환경에서 테스트 도구 모음(베타)을 사용하세요.

응답을 평가하기 위한 다양한 기준 사용

Preview(미리보기) 패널에서 입력으로부터 원하는 응답을 얻으려면 시행착오가 다소 필요합니다. 에이전트 구축은 반복적인 과정입니다. 또한 다양한 유형의 입력을 고려하려면 약간의 수정을 거쳐야 합니다. 여기에는 문장 다듬기, 권한 확인, 데이터 검증, 또는 지침에 더 자세한 내용 또는 가드레일 추가 등이 포함됩니다. 계획 캔버스, 이벤트 로그, 테스트 도구 모음(베타)에서 받는 피드백은 에이전트의 서브에이전트, 작업, 또는 지침을 다듬어야 하는 부분에 집중하고 이를 식별하여 원하는 정확도 수준에 더 가까운 응답을 얻을 수 있도록 도와줍니다.

다음은 에이전트를 테스트할 때 고려해야 할 여러 가지 주요 사항과 이를 해결하는 방법입니다.

테스트 고려 사항	에이전트를 개선하는 방법
에이전트가 내 지침을 잘 따랐나요?	다양한 유형의 입력을 다룰 수 있도록 기존 지침의 표현을 다듬거나 지침을 추가합니다.
응답이 정확하고, 완전하고 읽기 쉽나요?	에이전트가 올바른 데이터에 액세스하고 있는지 확인합니다. 작업이나 지침을 더 작은 부분으로 나누어 개별적으로 해결할 수 있도록 합니다. 지침의 표현을 회사의 목소리에 맞게 다듬으세요.
응답이 내 데이터를 기반으로 하고 있나요?	원하는 데이터를 호출하도록 지침을 수정하세요. 에이전트가 모든 필수 데이터에 액세스하는 데 필요한 권한을 가지고 있는지 확인하세요. 에이전트가 액세스하고 있는 데이터가 최신 상태이고 정확한지 확인하세요.
응답이 브랜드의 목소리와 일치하나요?	지침을 비즈니스에서 사용하는 용어나 표현을 사용하도록 다듬으세요. 언어 설정 탭에서 어조를 조정하세요.
응답하는 데 얼마나 걸렸나요?	지침을 명확히 하세요. 작업이나 지침을 더 작게 나누세요.
응답에 편향이나 유해성이 포함되어 있나요?	지침에 가드레일을 추가하거나 다듬으세요.
응답은 매번 신뢰할 수 있나요?	에이전트 응답이 정확도의 기준선을 충족하거나 초과하는지 판단하세요.

테스트 비용

마지막으로 테스트 시 고려해야 할 사항은 테스트 실행 비용입니다. 테스트 도구 모음(베타)에서 에이전트를 테스트하면 요청 및 크레딧이 소모될 수 있습니다. 이러한 요청과 크레딧은 조직에 비용을 초래하는 생성형 AI에 대한 과금 대상 사용 지표입니다. 더 자세한 내용은 생성형 AI 과금 대상 사용 유형 도움말 문서를 검토하거나 계정 담당자에게 문의하세요.

마무리

에이전트를 테스트하려면 기존 애플리케이션 테스트와는 다른 방식의 사고와 작업이 필요합니다. 에이전트의 응답에 영향을 미칠 수 있는 모든 변수를 고려할 때 성공적인 에이전트 테스트가 전통적인 소프트웨어 테스트보다 더 주관적이라는 사실은 그리 놀랍지 않습니다. Agentforce 테스트 도구에 숙달하고, 에이전트 성능에 영향을 주는 요인을 완화하는 방법을 이해하면 원하는 수준의 정확도를 빨리 달성하는 데 도움이 될 수 있습니다. 다음 유닛에서는 테스트를 안내하는 에이전트 테스트 전략 생성의 중요성을 학습해 봅니다.

예상 시간

주제

도움말 검색

Agentforce 자원