Esplorare strumenti e considerazioni per il testing degli agenti

Obiettivi di apprendimento

Al completamento di questa unità, sarai in grado di:

Spiegare l’importanza del testing degli agenti.
Descrivere gli strumenti che è possibile utilizzare per testare il proprio agente.
Esporre considerazioni sul testing degli agenti e sulle pratiche di mitigazione.

Prima di iniziare

Prima di iniziare questo modulo, ti consigliamo di completare i contenuti seguenti: che forniscono la base di conoscenze da cui parte questo modulo.

Introduzione

L’intelligenza artificiale (IA) e la diffusione degli agenti IA stanno riformulando il modo in cui pensiamo allo sviluppo del software. In molte organizzazioni, gli stessi amministratori e sviluppatori Salesforce che hanno trascorso anni ad amministrare e personalizzare le soluzioni Salesforce sono ora chiamati a creare gli agenti Agentforce. Tutto questo richiede un cambiamento nelle loro competenze, negli strumenti che utilizzano e nel loro modo di pensare. Mentre la nota gestione tradizionale del ciclo di vita delle applicazioni (ALM), con le fasi di ideazione, configurazione, testing, distribuzione e osservazione, si applica anche al processo del ciclo di vita dello sviluppo degli agenti (ADL), l’inserimento dell’IA generativa in questo contesto può dare luogo ad alcuni colpi di scena inaspettati, soprattutto per quanto riguarda il testing degli agenti.

Una ruota che mostra le cinque fasi del ciclo di vita dello sviluppo degli agenti: Ideazione, Configurazione, Test, Distribuzione e Osservazione.

In questo modulo scoprirai quali sono gli strumenti disponibili in Agentforce Studio per il testing e la risoluzione dei problemi degli agenti. Troverai inoltre considerazioni che ti aiuteranno a eseguire il testing, nonché strategie di testing che potrai utilizzare per rendere più accurate e prevedibili le risposte degli agenti.

Ragioni per eseguire il testing

Se hai ottenuto il badge Agentforce: pianificazione degli agenti, hai seguito Nora Alami di Coral Cloud Resorts durante la sua pianificazione di un agente in grado di creare e gestire l’esperienza del cliente. Hai appreso come definire criteri come il pubblico, l’ambito, i casi d’uso, le salvaguardie e le attività che verranno eseguite dall’agente. Queste specifiche corrispondono a ciò che il testing che esegui dovrebbe convalidare per assicurare che le prestazioni dell’agente siano in linea con i compiti per i quali lo hai progettato.

Strumenti per testare e risolvere i problemi dell’agente

Assicurarsi che l’agente risponda in modo preciso e prevedibile agli input degli utenti può sembrare un compito arduo, soprattutto se si considerano tutte le richieste degli utenti che gli agenti secondari, le azioni e le salvaguardie devono essere in grado di gestire. Con così tante variabili in gioco, la causa di una risposta imprecisa, di un messaggio di errore o di un’allucinazione potrebbe risiedere all’interno di un’istruzione, un’azione, dei dati o un insieme di autorizzazioni. Ecco perché Agentforce Studio offre due livelli di testing per darti la certezza che l’agente sia pronto a fornire prestazioni affidabili e prevedibili: anteprima del testing nel Generatore Agentforce e testing su larga scala in Suite di test (beta).

Strumenti di testing e risoluzione dei problemi del Generatore Agentforce

Il Generatore Agentforce offre diversi strumenti che consentono di testare le conversazioni e verificare in che modo l‘agente ha elaborato le proprie risposte così da perfezionarlo prima di renderlo disponibile agli utenti. Diamo un'occhiata.

Anteprima (1): è emozionante arrivare alla fase del Generatore Agentforce in cui puoi iniziare a conversare con l’agente nel riquadro dell’anteprima e provare le conversazioni che gli utenti potrebbero avere con l’agente per capire se risponde come desideri. Puoi scegliere tra due modalità di anteprima (2):

Simulazione: testa il tuo agente con dati e azioni fittizi.
Test live: utilizza dati reali per osservare le prestazioni dell’agente.

L’output generato nell‘anteprima consente di verificare se l’agente fornisce risposte utili e pertinenti, indica le azioni corrette, fa riferimento ai processi aziendali in modo corretto e rimane entro le salvaguardie che hai stabilito.

Riepilogo dell’interazione (3): rivedi a grandi linee i passaggi seguiti dall‘agente per fornire la propria risposta, compresi gli agenti secondari e i ragionamenti a cui ha fatto ricorso.

Tracciamento sessioni Agentforce (4): visualizza tutti i dettagli di una sessione dell‘agente per analizzare o risolvere eventuali problemi relativi alle sue interazioni. È possibile esaminare le esecuzioni del motore di ragionamento, le azioni, gli input e gli output dei prompt e dei gateway, i messaggi di errore e le risposte finali in visualizzazione testo o codice (5), il tutto raggruppato sotto l‘ID di ogni sessione. Per il Tracciamento sessioni Agentforce è necessario Data 360.

Il tracciamento della sessione Agentforce torna utile anche dopo l’avvio dell’agente, poiché consente di esaminare in dettaglio le conversazioni che gli utenti hanno con gli agenti, inclusi gli input forniti all’agente e le sue risposte. Questo può aiutarti a individuare e risolvere eventuali problemi o a regolare l’agente per gestire input che non avevi previsto. Il tracciamento della sessione consente di sapere se è necessario impostare ulteriori misure di salvaguardia o perfezionare le istruzioni o le azioni per fornire risposte più mirate.

Suite di test Agentforce Studio

Dopo aver perfezionato le prestazioni dell’agente nel Generatore Agentforce, puoi iniziare a eseguire test in batch in Suite di test (beta) di Agentforce Studio. Per accedere a Suite di test (beta), in App Launcher (Programma di avvio app) apri Agentforce Studio e fai clic su Tests (Test).

Menu di Agentforce Studio con l’opzione Tests (Test) selezionata.

Forse penserai: visto che ho già testato l’agente nell‘anteprima del Generatore Agentforce, perché devo testarlo in batch in Suite di test (beta)? In realtà ci vorrebbe molto tempo per immaginare tutti i modi in cui un utente potrebbe porre una domanda o interagire con l’agente, per poi testarli a uno a uno nella finestra dell’anteprima. Suite di test (beta) semplifica questo passaggio testando decine o anche centinaia di scenari contemporaneamente. Ad esempio, puoi caricare un file .csv contenente scenari di testing che hai scritto in linguaggio naturale oppure puoi chiedere a Suite di test (beta) di utilizzare l’IA per generare input di test pertinenti alle mansioni svolte dall’agente.

Quando viene eseguito un test in batch, i risultati mostrano l’input che è stato testato insieme agli agenti secondari e alle azioni previste ed effettive che ha richiamato, alla risposta prevista e alla conferma che ogni input sia stato superato o meno. Se hai bisogno di ulteriori informazioni sul motivo per cui un input di test non è riuscito, puoi copiarlo e incollarlo nel riquadro Preview (Anteprima) del Generatore Agentforce e rivedere il percorso seguito dall’agente per arrivare alla risposta di operazione non riuscita sull’area di disegno del piano. Questo ti aiuterà a perfezionare ulteriormente le istruzioni, migliorando così l’esperienza dell’utente. Per informazioni dettagliate su Suite di test (beta) e sulla scrittura o la generazione di scenari di testing, vedi Agentforce: testing degli agenti.

Considerazioni sul testing degli agenti

Nel testing tradizionale delle applicazioni, si pianifica ogni dettaglio dell’applicazione prima ancora di iniziare a crearla. Il successo si misura in base al raggiungimento di risultati prevedibili e ripetibili: è deterministico. La soluzione funziona come previsto oppure no. D’altra parte, anche se lo sviluppo di un agente richiede una pianificazione preliminare, è possibile perfezionarlo, testarlo e modificarlo in fase di creazione. Il testing degli agenti è probabilistico, il che significa che i risultati possono essere meno prevedibili, univoci e, a volte, sorprendenti a causa dell’assenza della logica basata su regole dell’IA generativa. Lo stesso input può generare molte risposte diverse e comunque corrette, oltre ad alcune risposte errate o, a volte, persino allucinazioni. Inoltre, è difficile prevedere tutti i modi in cui un utente potrebbe interagire con l’agente, quindi occorre tenere presenti e testare una varietà di scenari durante la sua creazione. Così facendo riduci al minimo le risposte che non corrispondono all’input dell’utente o che sono inaccurate.

Determinare quando l’agente è pronto per la produzione

La natura probabilistica del comportamento degli agenti non aiuta a stabilire con certezza quando l’agente è pronto per la produzione. Ogni azienda deve stabilire i propri punti di riferimento rispetto alle percentuali di successo/insuccesso nei vari scenari. Non esiste una risposta giusta e il livello di precisione desiderato può variare a seconda del settore. Un buon punto di partenza è considerare con quanta precisione un essere umano svolgerebbe lo stesso compito, ad esempio gestire le domande relative alle prenotazioni, e utilizzare questo dato come riferimento. In seguito potrai impegnarti affinché l’agente raggiunga o superi tale livello di precisione.

Eseguire sempre il testing in un Sandbox

Il testing degli agenti può modificare i dati del CRM, quindi utilizza sempre Suite di test (beta) in un ambiente Sandbox, mai nell’ambiente di produzione.

Utilizzare più criteri per valutare la risposta

Per ottenere le risposte desiderate dagli input che inserisci nel riquadro Preview (Anteprima), saranno probabilmente necessari alcuni tentativi. Creare un agente è un processo iterativo. Inoltre, per tenere conto dei vari tipi di input, è necessario apportare alcune modifiche, tra cui la revisione del testo, la verifica delle autorizzazioni, la convalida dei dati o l’aggiunta di ulteriori dettagli o misure di salvaguardia alle istruzioni. Il feedback che riceverai sull’area di disegno del piano, sui registri degli eventi o in Suite di test (beta) ti aiuterà a individuare e identificare gli aspetti che devi perfezionare negli agenti secondari, nelle azioni o nelle istruzioni dell’agente per ottenere risposte più vicine al livello di accuratezza che desideri.

Ecco alcuni aspetti fondamentali da tenere presenti quando si testa l’agente, con indicazioni su come affrontarli.

Considerazioni sul testing	Modi di perfezionare l’agente
L’agente ha seguito le mie istruzioni?	Perfeziona la formulazione delle istruzioni esistenti o aggiungi istruzioni per coprire diversi tipi di input.
La risposta è accurata, completa e facile da leggere?	Verifica che l’agente stia accedendo ai dati corretti. Suddividi le azioni o le istruzioni in parti più piccole che possono essere affrontate separatamente. Perfeziona la formulazione delle istruzioni per allinearle allo stile dell’azienda.
La risposta è radicata nel contesto dei miei dati?	Rivedi le istruzioni in modo che vengano chiamati i dati desiderati. Verifica che l’agente disponga delle autorizzazioni necessarie per accedere a tutti i dati richiesti. Assicurati che i dati a cui sta accedendo siano aggiornati e precisi.
La risposta è in linea con la voce del marchio?	Perfeziona le istruzioni affinché vengano utilizzati termini o frasi di uso aziendale. Regola il tono nella scheda Language Settings (Impostazioni lingua).
Quanto tempo ci è voluto per rispondere?	Chiarisci le istruzioni. Suddividi le azioni o le istruzioni in parti più piccole.
La risposta contiene bias o tossicità?	Perfeziona o aggiungi salvaguardie alle istruzioni.
La risposta è sempre affidabile?	Determina se le risposte degli agenti soddisfano o superano i requisiti base di accuratezza.

Costi del testing

Un’ultima considerazione sul testing riguarda i costi. Il testing dell’agente in Suite di test (beta) può comportare il consumo di richieste o crediti. Queste richieste e crediti sono metriche di utilizzo fatturabili per l’IA generativa che comportano costi per l’organizzazione. Per saperne di più, consulta la documentazione della guida Tipi di utilizzo fatturabili dell’IA generativa o parla con un responsabile account.

Conclusioni

Il testing degli agenti richiede un modo di pensare e di lavorare diverso rispetto al tradizionale testing delle applicazioni. Se si considerano tutte le variabili che possono influire sulle risposte dell’agente, non c’è da stupirsi che un efficace testing dell’agente sia più soggettivo rispetto al testing tradizionale del software. Padroneggiare gli strumenti di testing di Agentforce e comprendere come mitigare i fattori che influenzano le prestazioni dell’agente può aiutarti a raggiungere rapidamente il livello di accuratezza che desideri. Nella prossima unità imparerai l’importanza della creazione di una strategia di testing dell’agente per guidare le tue prove.

Tempo stimato

Argomenti

Hai bisogno di aiuto?

Risorse per Agentforce