Aprimorar seus agentes usando uma estratégia de teste de cinco etapas

Objetivos de aprendizagem

Após concluir esta unidade, você estará apto a:

Explicar por que é importante ter uma estratégia de testes antes de começar a testar seu agente.
Descrever a estratégia de cinco etapas para testar seus agentes.

Por que seguir uma estratégia de testes?

Os testes do agente são a base para o lançamento de agentes confiáveis e seguros. As ferramentas do Agentforce Studio oferecem diversas maneiras de garantir que seu agente execute as tarefas planejadas. Como você viu na unidade anterior, testar minuciosamente as várias maneiras pelas quais um usuário pode interagir com um agente pode ser um desafio. Com tantas variáveis em jogo, convém ter uma estratégia de testes definida antes de começar. Nessa unidade, você verá como testar seu agente após aprimorá-lo no Criador do Agentforce.

Uma estratégia de cinco etapas para testar seus agentes

O Ciclo de testes do agente de IA é uma estratégia detalhada que orienta você na otimização dos agentes para que eles estejam aptos para atender aos usuários. Você cria cenários de teste, seleciona métricas de avaliação e executa testes automatizados. Em seguida, você valida os resultados e usa o feedback para aprimorar ainda mais partes do agente para melhorar a precisão e o desempenho.

A estratégia de cinco etapas do Agentforce para testar agentes corresponde às descrições das etapas a seguir.

Etapa 1: Identificar cenários de teste e criar dados de teste.

Depois de testar manualmente uma variedade de entradas de usuário no painel Preview (Visualização) e analisar seu agente com base nessas respostas, você estará pronto para testar seu agente em lote no Test Suites (Pacotes de testes) (Beta). A primeira etapa do teste em lote é identificar os tipos de entrada que você deseja testar. Você pode criar e carregar seus próprios cenários de teste elaborando-os em linguagem natural, ou no Test Suites (Pacotes de testes) (Beta), e clique em Create test suite (Criar pacote de testes) para usar a IA para gerar casos de teste para você usando metadados do seu agente e dados aos quais ele tem permissão de acesso. Independente de você mesmo elaborar os cenários de teste ou solicitar que a IA faça isso, é importante entender o que caracteriza um cenário de teste eficaz. Vamos dar uma olhada.

Ao planejar seu agente, você definiu o escopo e os recursos. Por exemplo, nosso agente de serviço da Coral Cloud inclui esses subagentes e ações que definem algumas tarefas e trabalhos que o agente tratará relacionados a experiências.

O subagente Experience Management (Gerenciamento de experiências) lida com as consultas dos clientes relacionadas à reserva de experiências na Coral Cloud Resorts, incluindo a realização de reservas, a modificação de reservas e a resposta a perguntas sobre detalhes da experiência.
A ação Create Experience Session Booking (Criar reserva de sessão de experiências) usa um fluxo para criar a reserva de uma nova experiência para um ou vários hóspedes.

Para ajudar você a criar bons cenários de teste, no Criador do Agentforce, revise os subagentes do agente, incluindo os campos Classification Description (Descrição da classificação) e Scope (Escopo), que descrevem os recursos e parâmetros nos quais seu agente deve operar. Analise também cada instrução que orienta o desempenho do agente. Em seguida, escreva (ou gere no Test Suites (Pacotes de testes) [Beta]) entradas para testar esses detalhes para ajudar a garantir que seu agente atue de forma confiável em cada cenário. Por exemplo, no caso do subagente Experience Management (Gerenciamento de experiências) que descrevemos, as entradas abaixo poderiam estar entre seus cenários de teste.

Fale-me sobre a experiência _____________.
Você tem reservas para a experiência _____________ em julho?
Preciso alterar minha reserva.
Gostaria de confirmar minha reserva.

Você precisa de vários cenários que abordem todos os tipos de entrada para testar seu agente na totalidade. Um bom conjunto de entradas de teste tem esses atributos.

Volume: um número suficiente de casos de teste para garantir uma cobertura de diferentes cenários e casos extremos.
Diversidade: uma ampla gama de entradas, contextos e variações para testar a adaptabilidade do agente em casos de uso do mundo real, incluindo entradas que não estão dentro do escopo do agente ou que podem desafiar as proteções do agente.
Qualidade: casos de teste bem definidos, precisos e relevantes, alinhados com os objetivos do agente.

O Test Suites (Pacotes de testes) (Beta) usa arquivos .csv para armazenar seus cenários de teste. Se você escrever suas próprias entradas de teste, criará seu próprio arquivo .csv. Se você solicitar que a IA gere entradas de teste, poderá baixar esses testes em um arquivo .csv e usá-los como eles estão, ou editá-los.

Recomendamos que você comece os testes gerando 10 ou 20 cenários de teste no Test Suites (Pacotes de testes) (Beta) e, em seguida, baixe o arquivo .csv para analisá-lo comparando com os parâmetros do agente. Isso pode economizar tempo, e você pode analisar esses cenários e adicionar outros para alinhá-los com os tipos de entrada que espera dos usuários. À medida que o desempenho do agente melhorar, você poderá gerar lotes maiores de cenários de teste.

Etapa 2: Definir os parâmetros da avaliação.

Os casos de teste gerados pelo Test Suites (Pacotes de testes) (Beta) incluem configurações que você seleciona conforme é orientado pelas quatro telas do fluxo de trabalho New Test (Novo teste). Depois de fornecer informações básicas sobre seu teste, como o nome e o agente que está testando, você pode optar por incluir variáveis de contexto que simulam informações sobre o usuário ou o contexto da conversa. Você também seleciona como o Test Suites (Pacotes de testes) (Beta) avalia o desempenho e a qualidade do agente. Convém testar todas as opções de critérios de avaliação para garantir que seu agente seja confiável e tenha um bom desempenho.

Clique em Next (Próximo) ou Previous (Anterior) abaixo da caixa azul para visualizar as quatro etapas para gerar casos de teste de agentes.

Ao concluir o fluxo de trabalho New Test (Novo teste) e clicar em Generate Test Cases (Gerar casos de teste), você verá uma lista de testes que correspondem aos critérios selecionados. Se tiver carregado um arquivo .csv com entradas de teste escritas por você, elas estarão na sua lista. Um caso de teste valida como o agente processa a entrada, que é chamada de declaração. Cada caso de teste inclui:

Utterance (Declaração): a consulta de entradas para o agente
Expected Subagent (Subagente esperado): o subagente relevante que o agente deveria avaliar
Expected Actions (Ações esperadas): as ações esperadas que o agente deveria executar
Expected Response (Resposta esperada): o resultado desejado descrito em linguagem simples

Test Suites (Pacotes de testes) (Beta) mostrando os campos de cada cenário de teste que são avaliados em tempo de execução.

Etapa 3: Executar os testes e avaliar os resultados.

Após concluir o fluxo de trabalho New Test (Novo teste), clique em Run Test Suite (Executar conjunto de testes) para executar os testes e observar o desempenho deles. Você pode analisar os resultados do teste relativos à resposta real do agente e a cada um dos critérios de avaliação selecionados no fluxo de trabalho New Test (Novo Teste).

Etapa 4: Validar seus resultados.

Embora os testes gerados abordem muitos cenários e informem se eles foram aprovados ou não, é importante que um humano revise as respostas para garantir que elas estejam alinhadas com a forma como os usuários interagem com o agente, como o agente deve responder e que não estejam produzindo resultados tóxicos ou indesejados. Nessa etapa, a revisão de entradas e respostas pode detectar sutilezas que passaram despercebidas, como incompatibilidades de tom ou imprecisões específicas do contexto.

Um teste em lote concluído mostrando os testes aprovados e reprovados no Test Suites (Pacotes de testes) (Beta).

Etapa 5: Revisar seus resultados e iterar.

Lembre-se que testar é um processo iterativo. Você usa os resultados dos testes para aprimorar seus subagentes, ações e instruções até atingir o nível de precisão aceitável. Os testes também podem ajudar a revelar dados desatualizados aos quais seu agente tem acesso ou permissões que precisam ser ajustadas.

Testar seus agentes novamente

Os agentes evoluem, como seu negócio, por isso, é importante realizar novos testes para garantir precisão e confiabilidade contínuas. Há muitos fatores que podem afetar o desempenho dos agentes, incluindo mudanças nos dados que o agente utiliza, permissões, atualizações dos subagentes, ações ou prompts, ou mudanças em recursos de produtos ou processos comerciais relacionados. Testes contínuos ajudarão seu agente a evoluir e se manter relevante conforme os objetivos comerciais mudam.

Finalizar

Os testes são a base para a criação de agentes de IA confiáveis, eficientes e seguros. Ao seguir uma estratégia de testes, você garante que seus agentes do Agentforce sejam confiáveis e úteis para seus usuários.

Recursos

Cenário de teste

Maria é administradora do Agentforce em uma grande rede hoteleira, a Global Stay Resorts. Ela ficou responsável por aprimorar um agente de IA criado para lidar com reservas de clientes. O agente foi testado manualmente no Criador do Agentforce e Maria já está pronta para implementar uma estratégia de testes mais abrangente para garantir a confiabilidade e precisão antes do lançamento completo do agente. Ela está particularmente focada em antecipar várias entradas de usuários e garantir que as respostas do agente estejam alinhadas com a voz da marca e os processos comerciais da empresa.

Tempo estimado

Tópicos

Procurando ajuda?

Agentforce Recursos