Explorar las consideraciones y las herramientas de pruebas de agente
Objetivos de aprendizaje
Después de completar esta unidad, podrá:
- Explicar la importancia de probar los agentes.
- Describir las herramientas que puede usar para probar los agentes.
- Debatir las consideraciones de probar los agentes y las formas de mitigarlos.
Antes de empezar
Antes de comenzar este módulo, considere completar el contenido recomendado. Estos módulos proporcionan una base de conocimientos que este módulo abordará.
-
Trailhead: Agentforce: Planificación de agente
-
Trailhead: Aspectos básicos del Generador de Agentforce
-
Trailhead: La Capa de confianza de Einstein
Introducción
La Inteligencia Artificial (IA) y el auge de los agentes de IA están cambiando la forma en que pensamos acerca del desarrollo de software. En varias organizaciones, los mismos administradores y desarrolladores de Salesforce que pasaron años administrando o personalizando soluciones de Salesforce ahora están a cargo de crear agentes de Agentforce. Esto exige un nuevo enfoque con respecto a sus habilidades, las herramientas que usan y su mentalidad. Si bien las etapas conocidas y tradicionales de la Gestión del ciclo de vida de las aplicaciones (ALM, por sus siglas en inglés) de elaboración de ideas, configuración, pruebas, implementación y observación también se aplican al proceso del ciclo de vida del agente (ADL), sumar a la IA generativa provoca algunos giros inesperados, en especial, con respecto a las pruebas de agente.

En este módulo, aprenderá sobre las herramientas disponibles para probar su agente y solucionar sus problemas, las consideraciones para realizar pruebas y las estrategias de prueba que puede aplicar para que las respuestas de su agente sean más precisas y predecibles.
Motivos para realizar pruebas
Si obtuvo la insignia Agentforce: Planificación de agente, siguió a Nora Alami de Coral Cloud Resorts mientras planificaba un agente que pudiera crear y gestionar reservas de clientes. Aprendió cómo definir los criterios, por ejemplo, audiencia, alcance, casos de uso, salvaguardas y tareas. Estas especificaciones son lo mismo que debería validar con su prueba para garantizar que el rendimiento de su agente esté alineado con el trabajo que le asignó.
Herramientas para probar su agente y solucionar problemas
Garantizar que su agente responda con precisión y de forma predictiva a las entradas del usuario puede parecer abrumador, en especial, cuando considera todas las solicitudes del usuario que deben manejar sus temas, acciones y salvaguardas. Con tantas variables en juego, la causa de una respuesta imprecisa, un mensaje de error o una alucinación puede encontrarse en una instrucción, una acción, un dato o un conjunto de permisos. Por eso, Agentforce Studio le ofrece dos niveles de pruebas para que sienta la seguridad de que su agente está preparado para ofrecer respuestas confiables y predecibles: pruebas manuales en el Generador de Agentforce y pruebas a escala en el Centro de pruebas.
Herramientas de pruebas y solución de problemas del Generador de Agentforce
Después de crear su agente en Agentforce Creator, empiece a probarlo en el Generador de Agentforce. Puede probar pláticas del panel Conversation Preview (Vista previa de plática) para ver cómo funciona su agente. Para revisar los pasos que realizó para devolver la respuesta que recibió, vea los detalles en el lienzo de plan. Además, puede revisar los registros de eventos del agente para ver detalles de plática y de sesión específicos.
Vista previa de plática (1):Es emocionante cuando llega al paso del Generador de Agentforce en el que empieza a platicar con su agente en el panel Conversation Preview (Vista previa de plática). Aquí, puede imitar las pláticas que sus usuarios podrían tener con su agente para ver si responde de forma esperada. Las respuestas que se generan le permiten ver si su agente ofrece respuestas útiles y pertinentes, llama las acciones correctas, hace referencia a sus procesos de negocio de forma correcta y respeta las salvaguardas que estableció.
Lienzo de plan (2): Cuando ingresa información en la ventana de chat de la vista previa de plática, el panel del centro, denominado lienzo de plan, se actualiza para mostrar cómo el agente llegó a su respuesta. El lienzo de plan muestra lo que ingresó inicialmente, el tema que seleccionó, las acciones que llamó y las instrucciones que usó. También puede ver el razonamiento que el agente usó para generar la respuesta y todos los datos pertinentes que tenía permitido usar para ofrecer una respuesta más personal y precisa.
La respuesta y los detalles que recibe le permiten identificar lo que hay que mejorar del agente para que ofrezca respuestas que se alineen con su plan. Puede probar una entrada, revisar su agente y probar de nuevo. Simplemente actualice la ventana Conversation Preview (Vista previa de plática) entre entradas para que se apliquen sus actualizaciones.

Registros de eventos mejorados
Mientras que los detalles de su interacción en el panel Conversation Preview (Vista previa de plática) desaparecen siempre que actualiza su agente, los registros de eventos mejorados capturan y almacenan las interacciones en una sesión de agente para que pueda ver el flujo de una conversación y mejorar las respuestas de su agente. Para usar los registros de eventos mejorados, habilite la opción de configuración en Agentforce Creator, en la pantalla Customize your agent (Personalizar su agente). Para eso, marque la casilla Keep a record of conversations with Enhanced Event Logs to review agent behavior (Mantenga un registro de las pláticas con registros de eventos mejorados para revisar el comportamiento de los agentes). También habilite los registros de eventos mejorados en la ficha Details (Detalles) en la configuración de los agentes.

Es útil tener acceso a los registros de eventos mejorados después de lanzar su agente debido a que puede revisar los intercambios de las pláticas que sus usuarios tienen con sus agentes, incluida la entrada que recibe su agente y cómo responde. Esto le permite detectar y solucionar un problema o configurar su agente para que maneje entradas inesperadas. Los registros de eventos le indican si necesita establecer salvaguardas adicionales o perfeccionar sus instrucciones y acciones para que las respuestas sean más específicas. El Generador de Agentforce almacena registros de eventos durante 7 días para que pueda revisar los datos de plática y la actividad de sesión de forma retroactiva en un solo lugar.

Centro de pruebas
Una vez que perfeccionó el rendimiento de su agente en el Generador de Agentforce, todo está preparado para probarlo por lotes en el Centro de pruebas. Para acceder al Centro de pruebas desde Setup (Configuración), busque y seleccione Testing Center (Centro de pruebas) en el cuadro de búsqueda rápida. O bien en el Generador de Agentforce, haga clic en el botón Batch Test (Prueba por lotes) arriba del panel Conversation Preview (Vista previa de plática).

Puede que piense “Ya probé mi agente en el Generador de Agentforce, ¿por qué tengo que probarlo por lotes en el Centro de pruebas?”. Pues bien, tardaría mucho tiempo en reflexionar sobre todas las formas en que un usuario podría hacer preguntas o interactuar con su agente para, luego, probar una por una en la ventana Conversation Preview (Vista previa de plática). El Centro de pruebas simplifica este proceso, ya que prueba decenas (incluso cientos) de situaciones a la vez. Por ejemplo, puede cargar un archivo .csv para probar situaciones que escribió en lenguaje natural o puede pedirle al Centro de pruebas que use la IA para generar entradas de prueba que se apliquen a los trabajos que realiza su agente.
Cuando se ejecuta una prueba por lotes, los resultados le muestran la entrada que probó con los temas y las acciones esperadas y reales que llamó, la respuesta esperada y si la entrada se aprobó o falló. Si necesita más información sobre por qué una entrada de prueba falló, copie y pegue la entrada en el panel Conversation Preview (Vista previa de plática) del Generador de Agentforce y revise el recorrido que siguió el agente para llegar a la respuesta que falló en el lienzo de plan. Esto le permite perfeccionar aún más sus instrucciones y, en definitiva, mejorar la experiencia del usuario. Para obtener información detallada sobre el Centro de pruebas y escribir o generar situaciones de prueba, consulte Agentforce: Pruebas de agentes.
Consideraciones para probar agentes
En las pruebas de aplicaciones tradicionales, planifica todos los detalles de su aplicación antes de siquiera empezar a crearla. El éxito se mide con resultados que se pueden predecir y repetir; es determinístico. Su solución funciona como debería o no. Por otro lado, si bien desarrollar un agente también requiere una planificación con antelación, uno perfecciona, prueba y revisa el agente mientras lo está creando. Las pruebas de agentes son probabilísticas, es decir, que sus resultados pueden ser menos predecibles, únicos y, a veces, inesperados debido a la falta de lógica basada en reglas de la IA generativa. La misma entrada puede generar varias respuestas distintas, pero correctas, así como respuestas incorrectas y hasta alucinaciones. También es difícil anticipar todas las formas en que un usuario podría interactuar con su agente, así que tiene que tener en cuenta y probar una variedad de situaciones cuando lo crea. De esta forma, reduce las respuestas que no coinciden con la entrada del usuario o que no son correctas.
Determinar cuándo su agente está listo para producción
Debido a la naturaleza probabilística del comportamiento de un agente, es difícil determinar cuándo su agente está listo para producción. Todas las compañías deben determinar su propia línea de base para las tasas de aprobación o fallo en distintas situaciones. No existe una sola respuesta correcta, y el nivel de precisión deseado puede variar según el sector. Un buen lugar para empezar es considerar con cuánta precisión se desempeña un humano en la misma tarea (por ejemplo, manejando preguntas de reservas) y usar eso como línea de base. Luego, puede dedicarse a garantizar que su agente cumpla o supere ese nivel de precisión.
Probar siempre en un entorno sandbox
Puede modificar sus datos de CRM cuando prueba sus agentes, así que siempre use el Centro de pruebas en un entorno sandbox, nunca en su entorno de producción.
Usar varios criterios para evaluar su respuesta
Para obtener las respuestas que quiere de sus entradas en el panel Conversation Preview (Vista previa de plática), es probable que tenga que pasar por varios intentos hasta dar con la solución. Crear un agente es un proceso iterativo. Para considerar varios tipos de entradas, deberá ponerse a revisar: pulir el texto, verificar permisos, validar datos o agregar más detalles o salvaguardas a sus instrucciones. Los comentarios que recibe en el lienzo de plan, los registros de eventos o el Centro de pruebas le permiten identificar y enfocarse en las áreas que debe perfeccionar de los temas, las acciones o instrucciones de su agente para obtener respuestas más cercanas al nivel de precisión deseado.
Estas son algunas cuestiones clave para tener en cuenta a medida que prueba su agente y formas de abordarlas.
Consideraciones de prueba |
Formas de perfeccionar su agente |
|---|---|
¿El agente siguió mis instrucciones? |
|
¿La respuesta es precisa, está completa y es fácil de leer? |
|
¿La respuesta está fundamentada con mis datos? |
|
¿La respuesta está alineada con la voz de mi marca? |
|
¿Cuánto tardó la respuesta? |
|
¿La respuesta contiene sesgos o toxicidad? |
|
¿Todas las respuestas son confiables? |
|
Costos de pruebas
Una última consideración es el costo de ejecutar las pruebas. Probar sus agentes en el Centro de pruebas puede consumir créditos Flex, créditos de plática o solicitudes de Einstein, así como créditos de Data 360. Estas solicitudes y créditos son métricas de uso facturables para la IA generativa que suponen un costo para su organización. Para obtener más información, revise la documentación de ayuda Tipos de uso facturables de la IA generativa o póngase en contacto con su ejecutivo de cuenta.
Finalización
Las pruebas de agentes requieren una forma de pensar y trabajar distinta a las pruebas de aplicaciones tradicionales. Cuando tiene en cuenta todas las variables que pueden impactar en las respuestas de su agente, no es de extrañar que las pruebas de agente exitosas son más subjetivas que una prueba de software tradicional. Perfeccionar las herramientas de prueba de Agentforce y entender cómo se mitigan los factores que afectan el rendimiento del agente lo ayudan a alcanzar el nivel de precisión deseado. En la próxima unidad, aprenderá sobre la importancia de crear una estrategia de prueba de agente para guiarlo en la prueba.
