Explorar las consideraciones y las herramientas de pruebas de agente
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Explicar la importancia de probar los agentes.
- Describir las herramientas que puede usar para probar los agentes.
- Debatir las consideraciones de probar los agentes y las formas de mitigarlos.
Antes de empezar
Antes de comenzar este módulo, considere completar el contenido recomendado. Estos módulos proporcionan una base de conocimientos que este módulo abordará.
-
Trailhead: Agentforce: Planificación de agente
-
Trailhead: Aspectos básicos del Generador de Agentforce
-
Trailhead: La Capa de confianza de Einstein
Introducción
La Inteligencia Artificial (IA) y el auge de los agentes de IA están cambiando la forma en que pensamos acerca del desarrollo de software. En varias organizaciones, los mismos administradores y desarrolladores de Salesforce que pasaron años administrando o personalizando soluciones de Salesforce ahora están a cargo de crear agentes de Agentforce. Esto exige un nuevo enfoque con respecto a sus habilidades, las herramientas que usan y su mentalidad. Si bien las etapas conocidas y tradicionales de la Gestión del ciclo de vida de las aplicaciones (ALM, por sus siglas en inglés) de elaboración de ideas, configuración, pruebas, implementación y observación también se aplican al proceso del ciclo de vida del agente (ADL), sumar a la IA generativa provoca algunos giros inesperados, en especial, con respecto a las pruebas de agente.

En este módulo, aprenderá sobre las herramientas disponibles en Agentforce Studio para probar su agente y solucionar sus problemas, las consideraciones para realizar pruebas y las estrategias de prueba que puede aplicar para que las respuestas de su agente sean más precisas y predecibles.
Motivos para realizar pruebas
Si obtuvo la insignia Agentforce: Planificación de agente, siguió a Nora Alami de Coral Cloud Resorts mientras planificaba un agente que pudiera crear y gestionar la experiencia del cliente. Aprendió cómo definir los criterios, por ejemplo, audiencia, alcance, casos de uso, salvaguardas y tareas. Estas especificaciones son lo mismo que debería validar con su prueba para garantizar que el rendimiento de su agente esté alineado con el trabajo que le asignó.
Herramientas para probar su agente y solucionar problemas
Garantizar que su agente responda con precisión y de forma predecible a las entradas del usuario puede parecer abrumador, en especial, cuando considera todas las solicitudes del usuario que deben manejar sus subagentes, acciones y salvaguardas. Con tantas variables en juego, la causa de una respuesta imprecisa, un mensaje de error o una alucinación puede encontrarse en una instrucción, una acción, un dato o un conjunto de permisos. Por eso, Agentforce Studio le ofrece dos niveles de pruebas para que sienta la seguridad de que su agente está preparado para ofrecer respuestas confiables y predecibles: vista previa de las pruebas en el Generador de Agentforce y pruebas a escala en Conjuntos de pruebas (Beta).
Herramientas de pruebas y solución de problemas del Generador de Agentforce
El Generador de Agentforce ofrece varias herramientas que le permiten probar pláticas y revisar cómo surgieron las respuestas del agente para que pueda iterar su agente antes de que esté disponible para sus usuarios. Echemos un vistazo.
Vista previa (1):Es emocionante cuando llega al paso del Generador de Agentforce en el que empieza a platicar con su agente en el panel Preview (Vista previa). El panel Preview (Vista previa) le permite probar las pláticas que sus usuarios podrían tener con su agente para ver si responde de forma esperada. Puede elegir entre dos modos de Vista previa (2):
-
Simulación: Pruebe su agente con acciones y datos simulados.
-
Prueba en vivo: Use datos reales para ver cómo funciona su agente.
El resultado generado en Vista previa le permite ver si su agente ofrece respuestas útiles y pertinentes, llama las acciones correctas, hace referencia a sus procesos de negocio de forma correcta y respeta las salvaguardas que estableció.
Resumen de interacciones (3): Revise los pasos en términos generales que el agente usó para devolver su respuesta, incluidos los subagentes y el razonamiento que llamó.
Rastreo de sesiones de Agentforce (4): Vea todo lo que ocurrió durante una sesión de agente en detalle para investigar o solucionar problemas relacionados con agentes. Revise las ejecuciones, las acciones, la solicitud y las entradas y salidas de pasarela del motor de razonamiento, mensajes de error y respuestas finales en la vista de texto o código (5), todo debajo de la Id. de sesión para cada sesión. El Rastreo de sesiones de Agentforce requiere Data 360.

El Rastreo de sesiones de Agentforce también es útil después de lanzar su agente debido a que puede revisar los intercambios de las pláticas que sus usuarios tienen con sus agentes, incluida la entrada que recibe su agente y cómo responde. Esto le permite detectar y solucionar un problema o configurar su agente para que maneje entradas inesperadas. El Rastreo de sesiones le indica si necesita establecer salvaguardas adicionales o perfeccionar sus instrucciones y acciones para que las respuestas sean más específicas.
Conjuntos de pruebas de Agentforce Studio
Una vez que perfeccionó el rendimiento de su agente en el Generador de Agentforce, todo está preparado para probarlo por lotes en Conjuntos de pruebas de Agentforce Studio (Beta). Para acceder a Conjuntos de pruebas (Beta), desde el Iniciador de aplicación, abra Agentforce Studio y, luego, haga clic en Tests (Pruebas).

Puede que piense “Ya probé mi agente en la Vista previa del Generador de Agentforce, ¿por qué tengo que probarlo por lotes en Conjuntos de pruebas (Beta)?” Pues bien, tardaría mucho tiempo en reflexionar sobre todas las formas en que un usuario podría hacer preguntas o interactuar con su agente para, luego, probar una por una en la ventana Preview (Vista previa). Conjuntos de pruebas (Beta) simplifica este proceso, ya que prueba decenas (incluso cientos) de situaciones a la vez. Por ejemplo, puede cargar un archivo .csv para probar situaciones que escribió en lenguaje natural o puede pedirle a Conjuntos de pruebas (Beta) que use la IA para generar entradas de prueba que se apliquen a los trabajos que realiza su agente.
Cuando se ejecuta una prueba por lotes, los resultados le muestran la entrada que probó con los subagentes y las acciones esperadas y reales que llamó, la respuesta esperada y si la entrada se aprobó o falló. Si necesita más información sobre por qué una entrada de prueba falló, copie y pegue la entrada en el panel Preview (Vista previa) del Generador de Agentforce y revise el recorrido que siguió el agente para llegar a la respuesta que falló en el lienzo de plan. Esto le permite perfeccionar aún más sus instrucciones y, en definitiva, mejorar la experiencia del usuario. Para obtener información detallada sobre Conjuntos de pruebas (Beta) y sobre escribir o generar situaciones de prueba, consulte Agentforce: Pruebas de agentes.
Consideraciones para probar agentes
En las pruebas de aplicaciones tradicionales, planifica todos los detalles de su aplicación antes de siquiera empezar a crearla. El éxito se mide con resultados que se pueden predecir y repetir; es determinístico. Su solución funciona como debería o no. Por otro lado, si bien desarrollar un agente también requiere una planificación con antelación, uno perfecciona, prueba y revisa el agente mientras lo está creando. Las pruebas de agentes son probabilísticas, es decir, que sus resultados pueden ser menos predecibles, únicos y, a veces, inesperados debido a la falta de lógica basada en reglas de la IA generativa. La misma entrada puede generar varias respuestas distintas, pero correctas, así como algunas respuestas incorrectas y hasta alucinaciones. También es difícil anticipar todas las formas en que un usuario podría interactuar con su agente, así que tiene que tener en cuenta y probar una variedad de situaciones cuando lo crea. De esta forma, reduce las respuestas que no coinciden con la entrada del usuario o que no son correctas.
Determinar cuándo su agente está listo para producción
Debido a la naturaleza probabilística del comportamiento de un agente, es difícil determinar cuándo su agente está listo para producción. Todas las compañías deben determinar su propia línea de base para las tasas de aprobación o fallo en distintas situaciones. No existe una sola respuesta correcta, y el nivel de precisión deseado puede variar según el sector. Un buen lugar para empezar es considerar con cuánta precisión se desempeña un humano en la misma tarea (por ejemplo, manejando preguntas de reservas) y usar eso como línea de base. Luego, puede dedicarse a garantizar que su agente cumpla o supere ese nivel de precisión.
Probar siempre en un entorno sandbox
Puede modificar sus datos de CRM cuando prueba sus agentes, así que siempre use Conjuntos de pruebas (Beta) en un entorno sandbox, nunca en su entorno de producción.
Usar varios criterios para evaluar su respuesta
Para obtener las respuestas que quiere de sus entradas en el panel Preview (Vista previa), es probable que tenga que pasar por varios intentos hasta dar con la solución. Crear un agente es un proceso iterativo. Para considerar varios tipos de entradas, deberá ponerse a revisar: pulir el texto, verificar permisos, validar datos o agregar más detalles o salvaguardas a sus instrucciones. Los comentarios que recibe en el lienzo de plan, los registros de eventos o Conjuntos de pruebas (Beta) le permiten identificar y enfocarse en las áreas que debe perfeccionar de los subagentes, las acciones o instrucciones de su agente para obtener respuestas más cercanas al nivel de precisión deseado.
Estas son algunas cuestiones clave para tener en cuenta a medida que prueba su agente y formas de abordarlas.
Consideraciones de prueba |
Formas de perfeccionar su agente |
|---|---|
¿El agente siguió mis instrucciones? |
|
¿La respuesta es precisa, está completa y es fácil de leer? |
|
¿La respuesta está fundamentada con mis datos? |
|
¿La respuesta está alineada con la voz de mi marca? |
|
¿Cuánto tardó la respuesta? |
|
¿La respuesta contiene sesgos o toxicidad? |
|
¿Todas las respuestas son confiables? |
|
Costos de pruebas
Una última consideración es el costo de ejecutar las pruebas. Probar su agente en Conjuntos de pruebas (Beta) puede consumir solicitudes o créditos. Estas solicitudes y créditos son métricas de uso facturables para la IA generativa que suponen un costo para su organización. Para obtener más información, revise la documentación de ayuda Tipos de uso facturables de la IA generativa o póngase en contacto con su ejecutivo de cuenta.
Finalización
Las pruebas de agentes requieren una forma de pensar y trabajar distinta a las pruebas de aplicaciones tradicionales. Cuando tiene en cuenta todas las variables que pueden impactar en las respuestas de su agente, no es de extrañar que las pruebas de agente exitosas son más subjetivas que una prueba de software tradicional. Perfeccionar las herramientas de prueba de Agentforce y entender cómo se mitigan los factores que afectan el rendimiento del agente lo ayudan a alcanzar el nivel de precisión deseado. En la próxima unidad, aprenderá sobre la importancia de crear una estrategia de prueba de agente para guiarlo en la prueba.