에이전트 테스트 도구 및 고려 사항 살펴보기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 에이전트 테스트의 중요성에 대해 설명합니다.
- 에이전트를 테스트하는 데 사용할 수 있는 도구를 설명합니다.
- 에이전트 테스트 시 고려해야 할 요소와 이를 완화하는 방법을 논의합니다.
시작하기 전에
이 모듈을 시작하기 전에, 다음 추천 콘텐츠를 먼저 완료해 보세요. 이 모듈이 제공하는 지식 기반은 다음 모듈을 기반으로 합니다.
소개
인공 지능(AI)과 AI 에이전트의 발전으로 소프트웨어 개발에 대한 사고방식이 달라지고 있습니다. 많은 조직에서 수년동안 Salesforce 솔루션을 관리하거나 맞춤 설정해 온 바로 그 Salesforce 관리자와 개발자들이 이제는 Agentforce 에이전트를 구축하는 업무를 책임지고 있습니다. 여기에는 이들의 기술, 사용 도구, 마음가짐(태도)의 변화가 요구됩니다. 아이디어 도출, 구성, 테스트, 배포, 관찰과 같은 익숙하고 전통적인 애플리케이션 수명 주기 관리(ALM) 단계가 에이전트 개발 수명 주기(ADL) 프로세스에도 적용되지만, 여기에 생성형 AI를 통합하면 특히 에이전트 테스트와 관련하여 일부 예기치 못한 상황이 더해질 수 있습니다.

이 모듈에서는 에이전트를 테스트하고 문제를 해결하는 데 사용할 수 있는 도구, 테스트에 도움이 되는 고려 사항, 에이전트 응답을 더 정확하고 예측 가능하게 하는 테스트 전략에 관해 살펴보겠습니다.
테스트의 이유
Agentforce: 에이전트 계획 뱃지를 획득했다면 Coral Cloud Resorts의 Nora Alami와 함께 고객 예약을 생성 및 관리할 수 있는 에이전트를 계획하는 과정을 진행했을 것입니다. 대상 그룹, 범위, 사용 사례, 가드레일, 수행할 작업 같은 기준을 정의하는 법에 대해 학습했죠. 이러한 사항들은 에이전트 성능이 여러분이 설계한 작업에 맞게 작동하는지 확인하기 위해 테스트 시 검증해야 하는 사항들과 동일합니다.
에이전트 테스트 및 문제 해결을 위한 도구
에이전트가 사용자 입력에 정확하고 예측 가능하게 응답하도록 만드는 것은 어려워 보일 수 있습니다. 특히 주제, 작업, 가드레일이 처리해야 하는 모든 사용자 요청을 고려할 때 더욱 그렇습니다. 아주 많은 변수가 작용하고 있는 상황에서는 부정확한 응답, 오류 메시지, 또는 환각의 원인이 지침, 작업, 데이터, 또는 권한 집합 내에 있을 수도 있습니다. 그래서 Agentforce Studio는 에이전트가 신뢰할 수 있고 예측 가능한 응답을 제공할 준비가 되었다고 확신할 수 있도록 여러분에게 두 가지 수준의 테스트, 즉 Agentforce 빌더의 수동 테스트와 테스트 센터의 대규모 테스트를 제공합니다.
Agentforce 빌더 테스트 및 문제 해결 도구
Agentforce Creator에서 에이전트를 구축한 후 Agentforce 빌더에서 테스트를 시작할 수 있습니다. Conversation Preview(대화 미리보기) 패널에서 대화를 시도하여 에이전트의 성능을 확인할 수 있습니다. 제공된 응답을 반환하기 위해 수행한 단계를 계획 캔버스의 세부 사항을 통해 검토할 수 있습니다. 또한 에이전트의 이벤트 로그를 검토하여 특정 세션과 대화 세부 사항을 살펴볼 수도 있습니다.
대화 미리 보기(1): Conversation Preview(대화 미리보기) 패널에서 에이전트와 대화를 직접 시작할 수 있는 Agentforce 빌더의 재미있는 단계가 제공됩니다. 여기에서는 사용자가 에이전트와 나눌 수 있는 대화를 시뮬레이션하여 응답이 자신이 의도한 대로 제공되는지 확인할 수 있습니다. 에이전트가 생성한 응답을 확인하여 에이전트가 유용하고 적절한 응답을 제공하는지, 올바른 작업을 호출하는지, 비즈니스 프로세스를 올바르게 참조하는지, 자신이 설정한 가드레일을 벗어나지 않는지 확인할 수 있습니다.
계획 캔버스(2): Conversation Preview(대화 미리보기) 채팅 창에 입력할 때마다 중앙에 있는 계획 캔버스 패널이 업데이트되어 에이전트가 응답을 생각해 낸 방식이 표시됩니다. 계획 캔버스는 여러분이 입력한 초기 입력, 선택한 주제, 호출한 작업, 사용한 지침을 표시합니다. 또한 에이전트가 응답을 생성할 때 사용한 추론과 더 정확한 개인 맞춤형 응답을 제공하기 위해 허용된 관련 데이터를 확인할 수 있습니다.
제공받은 응답과 세부 사항을 확인하고 에이전트가 계획에 맞는 응답을 제공하도록 수정할 수 있는 부분이 어디인지 정확하게 파악할 수 있습니다. 입력을 테스트하고, 에이전트를 수정하여 다시 테스트할 수 있습니다. 입력을 수정한 후 Conversation Preview(대화 미리보기) 창을 새로 고치기만 하면 업데이트가 적용됩니다.

고급 이벤트 로그
에이전트를 새로 고칠 때마다 Conversation Preview(대화 미리보기) 패널에서의 자세한 상호 작용 내용은 사라지지만, 고급 이벤트 로그가 에이전트 세션에서 상호 작용을 수집하고 저장하여 에이전트의 응답을 개선하기 위해 대화의 플로를 확인할 수 있습니다. 고급 이벤트 로그를 사용하려면 Customize your agent(에이전트 사용자 정의) 화면의 Agentforce Creator에서 Keep a record of conversations with Enhanced Event Logs to review agent behavior(고급 이벤트 로그를 사용하여 대화 기록을 보관하고 에이전트 동작을 검토합니다.)라는 확인란에 체크하여 설정을 활성화합니다. 에이전트 설정의 Details(세부 사항) 탭에서 나중에 Enhanced Event Logs(고급 이벤트 로그)를 활성화할 수도 있습니다.

에이전트 실행 후 Enhanced Event Logs(고급 이벤트 로그)에 활용하면 유용합니다. 사용자가 에이전트와 나눈 대화 유형 및 에이전트가 받은 입력과 에이전트 응답을 검토할 수 있기 때문입니다. 이렇게 하면 문제를 발견하고 이를 해결하거나 예상하지 못한 입력을 처리하도록 에이전트를 조정하는 데 도움이 됩니다. 이벤트 로그를 통해 추가 가드레일을 설정해야 하는지, 더욱 맞춤 설정된 응답을 제공하도록 지침이나 작업을 수정해야 하는지 파악할 수 있습니다. Agentforce 빌더는 이벤트 로그를 7일 동안 저장하므로 이전의 대화 데이터와 세션 활동을 모두 한곳에서 검토할 수 있습니다.

테스트 센터
Agentforce 빌더에서 에이전트의 성능을 수정한 후, 테스트 센터에서 배치 테스트를 수행할 준비가 완료됩니다. Setup(설정)에서 테스트 센터에 액세스하려면 빠른 찾기 상자에서 Testing Center(테스트 센터)를 검색하고 선택합니다. 또는 Agentforce 빌더에서 Conversation Preview(대화 미리보기) 패널 위에 있는 Batch Test(배치 테스트) 버튼을 클릭합니다.

이미 Agentforce 빌더에서 에이전트를 테스트했는데, 테스트 센터에서 배치 테스트해야 하는 이유에 관해 의문이 생길 수도 있습니다. 사용자가 질문하거나 에이전트와 상호 작용을 하는 모든 방식을 고려해 이를 Conversation Preview(대화 미리보기) 창에서 하나씩 테스트하는 데는 상당한 시간이 걸릴 것입니다. 테스트 센터는 수십, 수백 가지의 시나리오를 한 번에 테스트하도록 간소화합니다. 예를 들어, 자연어로 작성된 테스트 시나리오의 .csv 파일을 업로드하거나 AI를 사용하여 에이전트가 수행하는 작업과 관련된 테스트 입력을 생성해 달라고 테스트 센터에 요청할 수 있습니다.
배치 테스트를 실행하면 예상했던 주제 및 실제 주제, 호출된 작업, 예상 응답, 각 입력의 통과/실패 여부와 함께 테스트 된 입력을 테스트 결과에서 확인할 수 있습니다. 테스트 입력이 실패한 원인에 관해 더 자세한 정보가 필요한 경우, 해당 입력을 Agentforce 빌더 Conversation Preview(대화 미리보기) 패널에 복사 및 붙여 넣기를 하고 에이전트가 채택한 경로를 검토하여 계획 캔버스에서 실패한 응답에 도달할 수 있습니다. 이렇게 하면 지침을 추가로 수정하여 사용자 경험을 개선할 수 있습니다. 테스트 센터 및 테스트 시나리오 작성 또는 생성에 관한 자세한 정보는 Agentforce: 에이전트 테스트를 확인하세요.
에이전트 테스트 고려 사항
전통적인 애플리케이션 테스트 과정은 애플리케이션 구축을 시작하기도 전에 애플리케이션의 모든 세부 사항을 미리 계획합니다. 성공 여부는 예측할 수 있고 반복할 수 있는 결과를 생성하는지로 측정되며 이는 결정론적인 방식입니다. 솔루션은 의도한 대로 작동하거나 그렇지 않거나 둘 중 하나입니다. 반면 에이전트 개발 역시 처음부터 계획해야 하지만, 구축하는 과정 동안에 에이전트를 개선, 테스트, 수정합니다. 에이전트 테스트는 확률적인 방식입니다. 즉, 생성형 AI는 규칙 기반 로직이 부족하기 때문에 결과는 덜 예측 가능하거나, 고유할 수 있으며 때로는 놀라울 수도 있습니다. 동일한 입력값이라도 여러 다른 응답이 생성될 수 있지만 여전히 올바른 응답, 부정확한 응답, 심지어는 환각이 생성될 수도 있습니다. 또한 사용자가 에이전트와 상호 작용할 수 있는 모든 방식을 예측하는 것은 어려울 수 있으므로 에이전트를 구축할 때 다양한 시나리오를 고려하고 테스트해야 합니다. 이렇게 하면 사용자의 입력에 맞지 않거나 정확하지 않은 응답을 최소화할 수 있습니다.
에이전트의 프로덕션 준비 시점 판단하기
에이전트 동작의 확률적 특성으로 인해 에이전트의 프로덕션 준비 시점을 판단하는 것이 약간 명확하지 않을 수 있습니다. 모든 회사는 자체적으로 다양한 시나리오에서 통과/실패 비율의 기준선을 결정해야 합니다. 정답이 하나만 있는 것은 아니며, 원하는 정확도의 수준도 산업별로 다를 수 있습니다. 좋은 출발점은 사람이 동일한 작업(예: 예약 문의 처리)을 얼마나 정확하게 수행할 수 있을지 고려하고 이를 기준선으로 사용하는 것입니다. 그런 다음 에이전트가 정확도 수준을 충족하거나 초과하도록 노력할 수 있습니다.
항상 Sandbox에서 테스트하기
에이전트를 테스트하면 CRM 데이터가 수정될 수 있으므로 항상 프로덕션 환경이 아닌 Sandbox 환경에서 테스트 센터를 사용하세요.
응답을 평가하기 위한 다양한 기준 사용
Conversation Preview(대화 미리보기) 패널에서 입력으로부터 원하는 응답을 얻으려면 몇몇 시행착오가 필요합니다. 에이전트 구축은 반복적인 과정입니다. 또한 다양한 유형의 입력을 고려하려면 약간의 수정을 거쳐야 합니다. 여기에는 문장 다듬기, 권한 확인, 데이터 검증, 또는 지침에 더 자세한 내용 또는 가드레일 추가 등이 포함됩니다. 계획 캔버스, 이벤트 로그, 테스트 센터에서 받는 피드백은 에이전트 주제, 작업, 또는 지침을 다듬어야 하는 부분에 집중하고 이를 식별하여 원하는 정확도 수준에 더 가까운 응답을 얻을 수 있도록 도와줍니다.
다음은 에이전트를 테스트할 때 고려해야 할 여러 가지 주요 사항과 이를 해결하는 방법입니다.
테스트 고려 사항 |
에이전트를 개선하는 방법 |
|---|---|
에이전트가 내 지침을 잘 따랐나요? |
|
응답이 정확하고, 완전하고 읽기 쉽나요? |
|
응답이 내 데이터를 기반으로 하고 있나요? |
|
응답이 브랜드의 목소리와 일치하나요? |
|
응답하는 데 얼마나 걸렸나요? |
|
응답에 편향이나 유해성이 포함되어 있나요? |
|
응답은 매번 신뢰할 수 있나요? |
|
테스트 비용
마지막으로 테스트 시 고려해야 할 사항은 테스트 실행 비용입니다. 테스트 센터에서 에이전트를 테스트하면 Flex 크레딧, Conversation 크레딧, Einstein 요청이 소비될 수 있으며 Data 360 크레딧도 소비될 수 있습니다. 이러한 요청과 크레딧은 조직에 비용을 초래하는 생성형 AI에 대한 과금 대상 사용 지표입니다. 더 자세한 내용은 생성형 AI 과금 대상 사용 유형 도움말 문서를 검토하거나 계정 담당자에게 문의하세요.
마무리
에이전트를 테스트하려면 기존 애플리케이션 테스트와는 다른 방식의 사고와 작업이 필요합니다. 에이전트의 응답에 영향을 미칠 수 있는 모든 변수를 고려할 때 성공적인 에이전트 테스트가 전통적인 소프트웨어 테스트보다 더 주관적이라는 사실은 그리 놀랍지 않습니다. Agentforce 테스트 도구에 숙달하고, 에이전트 성능에 영향을 주는 요인을 완화하는 방법을 이해하면 원하는 수준의 정확도를 빨리 달성하는 데 도움이 될 수 있습니다. 다음 유닛에서는 테스트를 안내하는 에이전트 테스트 전략 생성의 중요성을 학습해 봅니다.
