Explorar las herramientas y consideraciones de prueba de agentes

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Explicar la importancia de realizar pruebas a los agentes.
Describir las herramientas que puede utilizar para probar su agente.
Hablar sobre las consideraciones de las pruebas de agentes y de las maneras de mitigarlas.

Antes de empezar

Antes de empezar este módulo, considere completar este contenido recomendado. Estos módulos proporcionan conocimientos fundamentales necesarios para realizar este módulo.

Introducción

La inteligencia artificial (IA) y el auge de los agentes de IA están reformando la manera en la que pensamos sobre el desarrollo de software. En muchas organizaciones, los mismos administradores y desarrolladores de Salesforce que han pasado años administrando y personalizando soluciones de Salesforce están ahora a cargo de la creación de agentes de Agentforce. Esto requiere un cambio en sus habilidades, las herramientas que utilizan y en la conciencia. Mientras que las etapas tradicionales y conocidas de generación de ideas, configuración, realización de pruebas, implementación y observación de gestión del ciclo de vida de aplicaciones (ALM) también se aplican al proceso del ciclo de vida del desarrollo de agentes (ADL), añadir a la mezcla algo de IA generativa puede hacer que aparezcan algunos imprevistos, sobre todo en el ámbito de las pruebas de agentes.

Una rueda en la que se muestran cinco etapas del ciclo de vida del desarrollo de un agente, entre las que se incluyen la generación de ideas, la configuración, la realización de pruebas, la implementación y la observación.

En este módulo, aprenderá sobre las herramientas disponibles en Agentforce Studio para probar agentes y resolver problemas, las consideraciones que le ayudarán a realizar pruebas y las estrategias de realización de pruebas que puede utilizar para que las respuestas de sus agentes sean más precisas y previsibles.

Los motivos por los que se deben hacer pruebas

Si ha obtenido la insignia Agentforce: planificación de agentes, significa que ha seguido a Nora Alami de Coral Cloud Resorts en su planificación de un agente que pueda crear y gestionar experiencias de clientes. Ha aprendido sobre la definición de criterios, como la audiencia, el ámbito, los casos de uso, las protecciones y las tareas que se llevarán a cabo. Estas especificaciones son las mismas que se deberían validar durante el proceso de realización de pruebas para asegurarse de que el rendimiento del agente se alinea con el trabajo para el que se ha diseñado.

Herramientas para probar agentes y resolver problemas

Garantizar que su agente responda de forma precisa y como es de esperar a las preguntas del usuario puede parecer una tarea abrumadora, especialmente cuando se tienen en cuenta todas las solicitudes del usuario que deben poder gestionar sus subagentes, acciones y protecciones. Con tantas variables en juego, la causa de una respuesta errónea, un mensaje de error o una alucinación debe residir en una instrucción, una acción, datos o un conjunto de permiso. Por ello, Agentforce Studio le proporciona dos niveles de prueba a fin de que pueda sentir con seguridad que su agente está listo para proporcionar respuestas fiables y previsibles: vista previa de las pruebas en Agentforce Builder y realización de pruebas a escala en Test Suites (versión beta).

Herramientas de pruebas y resolución de problemas de Agentforce Builder

Agentforce Builder proporciona varias herramientas que le permiten probar las conversaciones y revisar la manera en la que el agente elabora las respuestas, de manera que pueda iterar su agente antes de ponerlo a disposición de sus usuarios. Echemos un vistazo.

Preview (Vista previa) (1): resulta emocionante llegar al paso en Agentforce Builder en el que puede comenzar a conversar con su agente en el panel Preview (Vista previa). El panel Preview (Vista previa) puede simular conversaciones que los usuarios podrían tener con su agente, de manera que pueda ver si responde de la manera que se esperaba. Puede elegir entre dos modos de vista previa (2):

Simulate (Simulación): ponga a prueba a su agente con datos y acciones ficticios.
Live Test (Prueba en tiempo real): utilice datos reales para ver cómo actúa el agente.

El resultado generado en el panel Preview (Vista previa) le permite ver si su agente proporciona respuestas útiles y pertinentes, realiza las llamadas a la acción adecuadas, hace referencia a sus procesos de negocio de forma correcta y respeta las protecciones que se han establecido.

Interaction Summary (Resumen de interacciones) (3): revise los pasos en general que el agente utiliza para devolver respuestas, incluidos los subagentes y el razonamiento utilizados.

Agentforce Session Tracing (Seguimiento de sesiones de Agentforce) (4): visualice los detalles que se han producido durante la sesión del agente a fin de investigar las interacciones del agente o resolver problemas. Revise las ejecuciones del motor de razonamiento, las acciones, las solicitudes, las entradas y salidas de la pasarela, los mensajes de error y las respuestas finales en la vista de texto o de código (5), todo ello agrupado bajo el Id. de sesión de cada sesión. Agentforce Session Tracing (Seguimiento de sesiones de Agentforce) requiere Data 360.

El seguimiento de sesiones de Agentforce también resulta útil después de iniciar su agente porque puede revisar los tipos de intercambio de conversación entre los usuarios y los agentes, entre los que se incluyen los datos que se proporcionan al agente y la manera en la que este responde. Esto puede ayudarle a detectar y resolver un problema o a ajustar su agente para gestionar los datos de entrada que no ha anticipado. El seguimiento de sesiones le permite saber si necesita establecer protecciones adicionales o ajustar las instrucciones o acciones para que las respuestas estén más dirigidas.

Agentforce Studio Test Suites

Tras haber ajustado el rendimiento de su agente en Agentforce Builder, está listo para realizar pruebas en lote en Agentforce Studio Test Suites (versión beta). Para acceder a Test Suites (versión beta), desde App Launcher (Iniciador de aplicación), abra Agentforce Studio y haga clic en Tests (Pruebas).

Menú Agentforce Studio que muestra la opción Tests (Pruebas) seleccionada).

Es posible que se esté preguntando por qué tiene que realizar una prueba por lotes en Test Suites (versión beta) si ya ha probado su agente en el panel Preview (Vista previa) en Agentforce Builder. Tardaríamos mucho en pensar cada una de las maneras en las que un usuario podría formular una pregunta o interactuar con su agente y, después, probarlas una por una en la ventana Preview (Vista previa). Test Suites (versión beta) simplifica el proceso de realización de pruebas, ya que prueba docenas e incluso cientos de situaciones a la vez. Por ejemplo, puede cargar un archivo .csv de situaciones de prueba que haya escrito en lenguaje natural o puede pedirle a Test Suites (versión beta) que utilice IA para generar datos de prueba que sean pertinentes para las tareas que debe realizar su agente.

Cuando se ejecuta una prueba en lote, los resultados muestran los datos que se han probado junto con los subagentes y acciones esperados y reales que se han activado, la respuesta esperada y el resultado positivo o negativo de cada entrada. Si necesita más información sobre el motivo por el que una prueba ha fallado, puede copiar y pegar los datos en el panel Preview (Vista previa) de Agentforce Builder y revisar la ruta que ha seguido el agente para llegar a la respuesta en el lienzo del plan. Esto ayuda a ajustar más las instrucciones, lo cual puede hacer que la experiencia de usuario mejore. Para obtener más información sobre Test Suites (versión beta) y la escritura o generación de escenarios de prueba, consulte Agentforce: Pruebas de agentes.

Consideraciones sobre la prueba de agentes

En las pruebas con aplicaciones tradicionales, debe planificar cada detalle de la aplicación antes de comenzar a crearla. El éxito se mide al producir los resultados previstos y que se repitan, es determinista. Su solución puede funcionar tal y como estaba previsto o no. Por otra parte, el proceso de desarrollo de un agente también requiere planificar por adelantado: se ajusta, se prueba y se revisa el agente a la vez que se crea. Las pruebas de agentes son probabilísticas, es decir, los resultados pueden ser menos predecibles, únicos y, a veces, sorprendentes, debido a la falta de lógica basada en reglas de la IA generativa. Los mismos datos pueden generar respuestas diferentes pero igual de válidas, respuestas incorrectas o incluso alucinaciones. También resulta difícil anticipar todas las maneras en las que un usuario podría interactuar con su agente, por lo que debe tener en cuenta y probar una gran variedad de situaciones a la hora de crearlo. De esta manera, se minimizan las respuestas que no coincidan con los datos que se le proporcionan al agente o que no sean precisos.

Determinar si su agente está listo para la producción

La naturaleza probabilística del comportamiento del agente hace que determinar si su agente está listo para la producción no resulte sencillo. Las empresas deben determinar sus propios datos de referencia para los índices de superación o error en distintos escenarios. No existe una única respuesta correcta y el nivel de precisión deseado puede cambiar según el sector. Un buen punto para comenzar sería considerar con cuánta precisión realizaría una persona la misma tarea, por ejemplo, gestionar preguntas sobre reservas, y utilizar eso como base. A continuación, puede esforzarse por asegurar que su agente cumpla o exceda ese nivel de precisión.

Realice pruebas en un sandbox

Al probar sus agentes se pueden modificar los datos de CRM, por lo que debe utilizar siempre Test Suites (versión beta) en un entorno de sandbox, y no en su entorno de producción.

Utilizar muchos criterios para evaluar su respuesta

Para conseguir las respuestas que desea a partir de los datos que introduce en el panel Preview (Vista previa), tendrá que realizar el método de prueba y error varias veces. La creación de agentes es un proceso repetitivo. Para tener en cuenta varios tipos de datos de entrada, debe llevar a cabo un proceso de revisión, en el que se incluya el refinamiento del texto, la comprobación de permisos, la validación de datos o la adición de más detalles o protecciones a sus instrucciones. Los comentarios que reciba en el lienzo del plan, registros de eventos o Test SUITES (Versión beta) le ayudarán a hacerse una idea y a identificar en qué medida debe ajustar los subagentes, las acciones o las instrucciones del agente a fin de conseguir respuestas que se acerquen a su nivel de precisión deseado.

Estas son algunas cosas que debe tener en cuenta a medida que realiza pruebas en su agente y algunas maneras de abordarlas.

Consideraciones de la realización de pruebas	Cómo puede ajustar su agente
¿El agente ha seguido mis instrucciones?	Ajuste la redacción de las instrucciones o agregue instrucciones para cubrir diferentes tipos de datos de entrada.
¿La respuesta es precisa, está completa y resulta sencilla de leer?	Compruebe que el agente acceda a los datos adecuados. Desglose acciones o instrucciones para que puedan abordarse de forma independiente. Ajuste la redacción de las instrucciones para que se alinee con el tono de su empresa.
¿La respuesta se basa en mis datos?	Revise las instrucciones para que se utilicen los datos adecuados. Compruebe que el agente cuenta con los permisos que necesita para acceder a los datos necesarios. Asegúrese de que los datos a los que accede son actuales y precisos.
¿La respuesta se ajusta al estilo de mi marca?	Ajuste las instrucciones para que se utilicen los términos o frases que utiliza su empresa. Ajuste el tono en la ficha de configuración del lenguaje.
¿Cuándo tiempo se ha tardado en proporcionar la respuesta?	Haga que las instrucciones sean claras. Desglose acciones o instrucciones.
¿Hay sesgos o toxicidad en la respuesta?	Vuelva a ajustar las protecciones o agregue otras a sus instrucciones.
¿Es la respuesta siempre fiable?	Determine si los agentes cumplen o exceden la precisión que se ha marcado como base.

Costes de las pruebas

Una última consideración sobre las pruebas es el coste para ejecutarlas. La realización de pruebas a su agente en Test Suites (versión beta) puede consumir solicitudes o créditos. Estas solicitudes y créditos son mediciones de uso facturables para la IA generativa que generan costes para su organización. Para obtener más información, revise la documentación de ayuda Tipos de uso facturable de la IA generativa o hable con un ejecutivo de cuentas.

Conclusión

La prueba de agentes requiere una manera diferente de pensar y trabajar en cuanto a las pruebas de aplicaciones tradicionales. Si se tienen en cuenta todas las variables que pueden afectar a las respuestas de su agente, no es de extrañar que las pruebas de agente que se lleven a cabo con éxito son más subjetivas que una prueba de software tradicional. El dominio de herramientas de prueba de Agentforce y la comprensión de cómo se deben mitigar los factores que afectan al rendimiento del agente puede ayudarle a conseguir el nivel de precisión deseado rápidamente. En la siguiente unidad, aprenderá la importancia de crear una estrategia de prueba de agentes para guiarle en el proceso de pruebas.

Estimación de tiempo

Temas

¿Necesita ayuda?

Recursos de Agentforce