Ajustar los agentes con una estrategia de realización de pruebas de cinco pasos

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Explicar por qué es importante tener una estrategia de realización de pruebas antes de empezar a probar su agente.
Describir la estrategia de cinco pasos para probar sus agentes.

¿Por qué es necesario seguir una estrategia de realización de pruebas?

La realización de pruebas a agentes es la base para que los agentes sean fiables. Las herramientas de Agentforce Studio proporcionan varias maneras de asegurarse de que su agente gestiona las tareas que usted tiene pensado que haga. Tal y como ha aprendido en la unidad anterior, probar cuidadosamente las maneras en las que un usuario puede interactuar con un agente puede presentar un reto. Con tantas variables en juego, contar con una estrategia de realización de pruebas antes de comenzar es una decisión inteligente. En esta unidad, aprenderá a probar su agente tras haberlo ajustado en Agentforce Builder.

Estrategia de cinco pasos para probar sus agentes

El bucle de pruebas de agentes de IA es una estrategia paso a paso que le guía por el proceso de ajuste de sus agentes para que estén listos para los usuarios. Cree situaciones de prueba, seleccione mediciones de evaluación y ejecute pruebas automatizadas. A continuación, valide los resultados y utilice los comentarios para ajustar más las partes de su agente a fin de que mejore la precisión y el rendimiento.

La estrategia de cinco pasos de Agentforce para probar agentes que corresponde a las descripciones de los pasos que siguen.

Paso 1: Identificar escenarios de prueba y crear datos de prueba.

Después de haber probado una gran variedad de datos de entrada del usuario de forma manual en el panel Preview (Vista previa) y de haber revisado el agente según esas respuestas, estará listo para realizar pruebas en lote de su agente en Test Suites (versión beta). El primero paso en la realización de pruebas en lote es identificar los tipos de datos de entrada que desea probar. Puede crear y cargar sus propios escenarios de prueba escribiéndolos en lenguaje natural; si lo prefiere, en Test Suites (versión beta) puede hacer clic en Create test suite (Crear conjuntos de pruebas) para que la IA genere casos de prueba con los metadatos y datos a los que el agente tiene permiso para acceder. Independientemente de si escribe los escenarios usted mismo o le pide a la IA que los genere, resulta útil conocer qué características tiene un buen escenario, así que vamos a verlas.

Cuando planificó su agente, también definió el ámbito y sus capacidades. Por ejemplo, nuestro agente de Coral Cloud Service incluye estos subagentes y acciones que definen algunos de los trabajos y tareas que el agente gestionará sobre las reservas.

El subagente Experience Management (Gestión de experiencias) aborda las consultas de los clientes relacionadas con la experiencia de reserva en Coral Cloud Resorts, entre las que se incluyen la realización de reservas, las modificación de las mismas y la respuesta a las consultas sobre los detalles de la experiencia).
La acción Create Experience Session Booking (Crear reserva de sesión de experiencia) utiliza un flujo para crear una nueva reserva de experiencia para uno o varios huéspedes.

Para ayudar a que se le ocurran buenos escenarios, en Agentforce Builder, revise los subagentes de su agente, incluidos los campos Classification Description (Descripción de la clasificación) y Scope (Ámbito), que describen las habilidades y parámetros con los que su agente debería trabajar. Además, revise las instrucciones que dirigen la manera en la que funciona su agente. A continuación, escriba datos de entrada (o genérelos en Test Suites [versión beta]) que vuelvan a probar los detalles que ayudan a garantizar que su agente actúa de manera fiable en cada situación. Por ejemplo, para el subagente Experience Management (Gestión de experiencias) que hemos descrito, debería incluir lo siguiente en sus escenarios de prueba.

Proporcióneme información sobre la experiencia _____________.
¿Tiene disponibilidad para reservar _____________ en julio?
Necesito cambiar mi reserva.
Me gustaría confirmar mi reserva.

Necesita un número de situaciones que aborden todos los tipos de datos de entrada para probar su agente de forma exhaustiva. Un buen conjunto de datos de entrada contiene estos atributos.

Volumen: número suficiente de casos de prueba para garantizar que se abordan diferentes situaciones y casos complejos.
Diversidad: una gran variedad de datos de entrada, contextos y variaciones que prueban la capacidad de adaptación del agente a casos de uso reales, entre los que se incluyen datos de entrada que no están en el ámbito del agente o que pueden presentar un reto para las protecciones del agente.
Calidad: casos de uso bien definidos, precisos y pertinentes alineados con los objetivos del agente.

Test Suites (versión beta) utiliza archivos .csv para contener los escenarios de prueba. Si escribe sus propios datos de entrada de prueba, creará su propio archivo .csv; si le pide a la IA que genere datos de entrada de prueba, puede descargar esos pasos en un archivo .csv y utilizarlos tal y como están o modificarlos.

Recomendamos que comience el proceso de pruebas generando 10 o 20 situaciones de prueba en Test Suites (versión beta) y que, a continuación, descargue el archivo .csv para revisar los parámetros de su agente. Esto puede ahorrarle tiempo y podrá revisar estas situaciones y otras para que se alineen a los tipos de datos de entrada que espera por parte de los usuarios. A continuación, si el rendimiento de su agente mejora, puede generar lotes más grandes de situaciones de prueba.

Paso 2: Establecer los parámetros de evaluación.

Los casos de prueba generados por Test Suites (versión beta) incluyen la configuración que usted ha seleccionado y le guía por cuatro pantallas en el flujo de trabajo New Test (Nueva prueba). Tras proporcionar información básica sobre su prueba, como el nombre y el agente que está probando, puede elegir incluir variables de contexto que simulen información sobre el usuario o el contexto de la conversación. También seleccionará la manera en la que Test Suites (versión beta) evalúa el rendimiento y la calidad del agente. Probar todas las opciones de criterios de evaluación del agente para garantizar que el agente es fiable y que funciona correctamente es una buena idea.

Haga clic en Next (Siguiente) o en Previous (Anterior) debajo del cuadro azul para visualizar los cuatros pasos para generar casos de prueba de agentes.

Cuando complete el flujo de trabajo New Test (Nueva prueba) y haga clic en Generate Test Cases (Generar casos de prueba), verá una lista de las pruebas que coinciden con los criterios que ha seleccionado. Si carga un archivo .csv de datos de entrada de prueba que haya escrito, aparecerán en la lista. Un caso de prueba valida la manera en la que el agente procesa los datos de entrada, que a los que se les conoce como declaraciones. Cada caso de prueba incluye lo siguiente:

Declaraciones: la solicitud de entrada para el agente
Subagente esperado: el subagente pertinente que el agente debe evaluar
Acciones esperadas: las acciones relacionadas que debería realizar el agente
Respuesta esperada: el resultado deseado descrito en lenguaje sencillo

Test Suites (versión beta) que muestra los campos de cada situación de prueba que se evalúa en tiempo de ejecución.

Paso 3: Ejecutar las pruebas y evaluar los resultados.

Una vez completado el flujo de trabajo New Test (Nueva prueba), haga clic en Run Test Suite (Ejecutar conjunto de pruebas) para ejecutar pruebas y ver cómo se llevan a cabo. Puede revisar los resultados de la prueba para la respuesta del agente actual o para cada uno de los criterios de evaluación que haya seleccionado en el flujo de trabajo New Test (Nueva prueba).

Paso 4: Valide su resultados.

Aunque las pruebas generadas gestionan muchas situaciones y le indican si la prueba ha sido superada o no, es importante que una persona revise las respuestas para asegurarse de que se alinean con la manera en la que el agente interactúa con los usuarios y debería responder y de que no se produce ningún resultado tóxico o no deseado. Al revisar los datos de entrada y las respuestas en este paso, también se pueden detectar sutilezas que se hayan podido perder, por ejemplo, que el tono no sea el esperado o que haya imprecisiones específicas del contexto.

Una prueba en lote completa que muestra pruebas aprobadas y con fallos en Test Suites (versión beta).

Paso 5: Revisar los resultados y repetirlos.

Recuerde que la realización de pruebas es un proceso repetitivo. Utilice los resultados de la prueba para ajustar sus subagentes, acciones e instrucciones hasta que consiga el nivel de precisión esperado. La realización de pruebas también puede ayudar a revelar datos obsoletos a los que su agente tiene acceso o permisos que deben ajustarse.

Volver a probar los agentes

Los agentes, al igual que las empresas, evolucionan, por lo que es importante realizar de pruebas para buscar precisión y confianza continuamente. Hay muchos factores que pueden afectar al rendimiento de sus agentes, entre los que se incluyen cambios en los datos que utiliza su agente, permisos o actualizaciones de los subagentes, acciones, solicitudes, cambios en funciones de productos relacionados o procesos de negocio. La realización de pruebas continua ayudará a que su agente evolucione para que siga siendo pertinente a medida que los objetivos empresariales cambian.

Conclusión

La realización de pruebas es la base de la creación de agentes de IA fiables, eficaces y de confianza. Al seguir una estrategia de realización de pruebas, garantizará que sus agentes de Agentforce sean fiables y útiles para los usuarios.

Recursos

Escenario para la prueba

Maria es administradora de Agentforce en una gran cadena de hoteles, Global Stay Resorts. Le han pedido que ajuste un agente de IA diseñado para gestionar las reservas de los clientes. El agente se ha probado de forma manual en Agentforce Builder y Maria ya está lista para implementar una estrategia de realización de pruebas más completa a fin de garantizar fiabilidad y precisión antes de lanzarlo. Está particularmente centrada en la anticipación de varios datos de entrada por parte del usuario y en garantizar que las respuestas del agente se alineen con el estilo de la marca y los procesos de negocio.

Estimación de tiempo

Temas

¿Necesita ayuda?

Recursos de Agentforce