5단계 테스트 전략을 통해 에이전트 다듬기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

에이전트를 테스트하기 전 테스트 전략을 준비하는 것이 중요한 이유를 설명합니다.
에이전트 테스트를 위한 5단계 전략을 설명합니다.

테스트 전략이 필요한 이유

에이전트 테스트는 안정적이고 신뢰할 수 있는 에이전트를 배포하기 위한 기반이 됩니다. Agentforce Studio의 도구를 통해 다양한 방법을 사용하여 여러분이 계획한 작업을 에이전트가 잘 처리할 수 있도록 만듭니다. 지난 유닛에서 알아본 것처럼 사용자가 에이전트와 작업할 수 있는 많은 방식을 완벽하게 테스트하는 것은 어려울 수 있습니다. 많은 변수가 작용하는 경우에는 테스트를 시작하기 전에 테스트 전략을 준비하는 것이 현명한 접근 방법입니다. 이번 유닛에서는 Agentforce 빌더에서 에이전트를 수정한 후 테스트하는 방법에 대해 살펴보겠습니다.

에이전트 테스트를 위한 5단계 전략

AI 에이전트 테스트 루프는 단계별 전략으로서 에이전트를 미세하게 조정하여 사용자에게 제공할 수 있도록 준비합니다. 테스트 시나리오를 만들고 평가 지표를 선택하고 자동화된 테스트를 실행합니다. 그런 다음 결과를 검증하고 피드백을 통해 에이전트를 수정해 정확도와 성능을 개선합니다.

다음에 나오는 단계 설명에 해당하는 에이전트 테스트를 위한 Agentforce 5단계 전략.

1단계: 테스트 시나리오를 확인하고 테스트 데이터를 생성합니다.

Preview(미리보기) 패널에서 여러 사용자 입력을 수동으로 테스트하고 응답을 기반으로 에이전트를 개선하면 테스트 도구 모음(베타)에서 에이전트의 배치 테스트를 수행할 준비가 된 것입니다. 배치 테스트의 첫 단계는 테스트하려는 입력 유형을 식별하는 것입니다. 직접 테스트 시나리오를 자연어로 작성하여 만들어 업로드하거나, 테스트 도구 모음(베타)에서 Create test suite(테스트 도구 모음 만들기)를 클릭해서 AI를 통해 에이전트의 메타데이터와 액세스가 허용된 데이터를 이용하여 테스트 사례를 생성해 달라고 요청할 수 있습니다. 테스트 시나리오를 직접 작성하든, AI에 생성해 달라고 요청하든 좋은 테스트 시나리오를 만드는 요소를 아는 것이 도움이 됩니다. 그럼 함께 살펴보겠습니다.

에이전트를 계획했을 때 범위와 기능을 정의했습니다. 예를 들어 Coral Cloud 서비스 에이전트에는 익스피리언스(활동 프로그램) 관련하여 에이전트가 처리할 업무와 작업을 정의하는 다음과 같은 서브에이전트와 작업이 포함되어 있습니다.

Experience Management(익스피리언스 관리) 서브에이전트는 예약 접수, 세션 예약 변경, 익스피리언스와 관련된 세부 정보 문의에 대한 답변 등을 비롯하여 Coral Cloud Resorts의 익스피리언스 예약과 관련된 고객 문의를 처리합니다.
Create Experience Session Booking(익스피리언스 세션 예약 만들기) 작업은 플로를 사용하여 한 명 또는 여러 명의 방문객에 대한 활동 프로그램 예약을 생성합니다.

좋은 테스트 시나리오를 생성하도록 지원하기 위해 Agentforce 빌더에서는 기능 및 에이전트가 작동할 매개변수를 설명하는 Classification Description(분류 설명)과 Scope(범위) 필드를 포함하여 에이전트의 서브에이전트를 검토하세요. 또한 에이전트의 수행 방법을 안내하는 각 지침을 검토합니다. 다음으로는 에이전트가 각 시나리오에서 안정적으로 작동하는지 확인할 수 있도록 이러한 세부 사항에 대해 테스트할 입력을 작성(또는 테스트 도구 모음(베타)에서 생성)합니다. 예를 들어 앞서 설명한 Experience Management(익스피리언스 관리) 서브에이전트의 경우 다음과 같은 테스트 시나리오가 있을 수 있습니다.

_____________ 활동에 대해 알려주세요.
7월에 _____________ 활동을 예약할 수 있나요?
예약을 변경해야 합니다.
예약을 확인하고 싶습니다.

에이전트를 꼼꼼하게 테스트하려면 모든 입력 유형을 아우르는 많은 시나리오가 필요합니다. 테스트 입력의 모범 사례에는 다음과 같은 특성이 있습니다.

양: 다양한 시나리오 및 예외 상황을 다루는 충분한 양의 테스트 사례.
다양성: 실제 사용 사례 전반에서 에이전트의 적응성을 테스트할 수 있는 광범위한 입력, 상황, 변형으로, 에이전트의 범위 내에 있지 않거나 에이전트의 가드레일을 테스트할 수 있는 입력 포함.
품질: 에이전트 목표와 일치하는 잘 정의되고, 정확하며, 관련성 높은 테스트 사례.

테스트 도구 모음(베타)은 .csv 파일을 사용해서 테스트 시나리오를 저장합니다. 테스트 입력을 직접 작성하는 경우 직접 .csv 파일을 생성하거나, AI에 테스트 입력을 생성해 달라고 요청하는 경우 해당 테스트를 .csv 파일로 다운로드해서 그대로 사용하거나 편집할 수 있습니다.

테스트 도구 모음(베타)에서 10~20개의 테스트 시나리오를 생성하여 테스트를 시작한 다음 .csv 파일을 다운로드하여 에이전트 매개변수를 기준으로 검토하는 것을 권장합니다. 이렇게 하면 시간을 절약하고, 이러한 시나리오를 수정하거나 다른 시나리오를 추가하여 사용자로부터 예상되는 입력 유형에 맞게 조정할 수 있습니다. 에이전트의 성능이 향상되면, 더 많은 테스트 시나리오 배치를 생성할 수 있습니다.

2단계: 평가 매개변수를 설정합니다.

테스트 도구 모음(베타)에서 생성된 테스트 사례에는 새 테스트 워크플로의 네 개의 화면을 통해 안내된 대로 선택한 설정이 포함되어 있습니다. 테스트 이름 및 테스트할 에이전트에 관한 기본 정보를 제공한 후 사용자 또는 대화 컨텍스트에 관한 정보를 시뮬레이션할 컨텍스트 변수를 포함하도록 선택할 수 있습니다. 또한 테스트 도구 모음이(베타) 에이전트의 성능과 품질을 평가하는 방법을 선택합니다. 에이전트가 신뢰할 수 있고 잘 작동하는지 확인하기 위해 모든 평가 기준 옵션을 테스트하는 것이 좋습니다.

파란색 상자 하단의 Next(다음) 또는 Previous(이전)를 클릭하여 에이전트 테스트 사례를 생성하는 네 가지 단계를 살펴보세요.

새 테스트 워크플로를 완료하고 Generate Test Cases(테스트 사례 생성)를 클릭하면 선택한 기준과 일치하는 테스트 목록이 표시됩니다. .csv 파일로 된 작성한 테스트 입력을 업로드한 경우 해당 파일이 목록에 표시됩니다. 테스트 사례는 에이전트가 발화라고 부르는 입력을 처리하는 방식을 검증합니다. 각 테스트 사례에 다음을 포함합니다.

발화: 에이전트에 입력된 쿼리
예상 서브에이전트: 에이전트가 평가해야 할 관련 서브에이전트
예상 작업: 에이전트가 실행해야 할 관련 작업
예상 응답: 자연어로 설명된 원하는 결과

실행 시 평가되는 각 테스트 시나리오의 필드를 보여주는 테스트 도구 모음(베타).

3단계: 테스트를 실행하고 결과를 평가합니다.

새 테스트 워크플로를 완료했다면 Run Test Suite(테스트 도구 모음 실행)를 클릭하여 테스트를 실행하고 수행 결과를 확인합니다. 실제 에이전트 응답에 대한 테스트 결과와 새 테스트 워크플로에서 선택한 각 평가 기준에 대한 결과를 검토할 수 있습니다.

4단계: 결과를 검증합니다.

생성된 테스트는 많은 시나리오를 처리하여 성공 및 실패 여부를 알려줍니다. 하지만 사람이 직접 응답을 검토하여 해당 응답이 사용자가 에이전트와 상호 작용하는 방식 및 에이전트가 응답해야 하는 방식과 일치하는지, 그리고 유해하거나 원치 않는 결과를 생성하지 않는지 확인하는 것이 중요합니다. 이 단계에서 입력과 응답을 검토하면 일치하지 않는 어조나 컨텍스트별 부정확성과 같은 세부 내용을 놓치지 않았는지도 확인할 수 있습니다.

테스트 도구 모음(베타)에서 통과 및 실패한 테스트를 보여주는 완료된 배치 테스트.

5단계: 결과를 검토하고 반복합니다.

테스트는 반복적인 과정임을 기억하세요. 테스트 결과를 사용하여 서브에이전트, 작업, 지침을 허용 가능한 수준의 정확도에 도달할 때까지 다듬어야 합니다. 테스트는 또한 에이전트가 액세스할 수 있는 오래된 데이터 또는 조정이 필요한 권한을 찾는 데 도움이 됩니다.

에이전트 다시 테스트하기

에이전트와 비즈니스가 발전하면서 정확도와 신뢰를 지속적으로 보장하기 위해 다시 테스트하는 것이 중요합니다. 에이전트 성능에는 여러 가지 요인이 영향을 미칩니다. 여기에는 에이전트가 사용하는 데이터의 변경 사항, 권한, 서브에이전트, 작업, 또는 프롬프트의 업데이트, 관련 제품 기능이나 비즈니스 프로세스의 변경 등이 포함됩니다. 지속적인 테스트를 통해 비즈니스 목표의 변화에 맞춰 에이전트를 적절하게 발전시켜 나갈 수 있습니다.

마무리

테스트는 안정적이고, 효율적이며, 신뢰할 수 있는 AI 에이전트를 구축하기 위한 자양분이 됩니다 테스트 전략을 따르면 사용자에게 신뢰할 수 있고 유용한 Agentforce 에이전트를 제공할 수 있습니다.

리소스

퀴즈 시나리오

Maria는 대형 호텔 체인인 Global Stay Resorts의 Agentforce 관리자입니다. 고객 예약을 처리하도록 설계된 AI 에이전트를 조정하는 업무를 담당하고 있습니다. 에이전트는 Agentforce 빌더에서 수동으로 테스트했으며, Maria는 이제 에이전트를 정식으로 배포하기 전에 더욱 종합적인 테스트 전략을 구현하여 신뢰성과 정확성을 높이고자 합니다. Maria는 특히 다양한 사용자 입력을 예측하고 에이전트의 응답이 회사의 브랜드 어조 및 비즈니스 프로세스와 일치하도록 하는 데 집중하고 있습니다.

예상 시간

주제

도움말 검색

Agentforce 자원