Esplorare strumenti e considerazioni per il testing degli agenti
Obiettivi di apprendimento
Al completamento di questa unità, sarai in grado di:
- Spiegare l’importanza del testing degli agenti.
- Descrivere gli strumenti che è possibile utilizzare per testare il proprio agente.
- Esporre considerazioni sul testing degli agenti e sulle pratiche di mitigazione.
Prima di iniziare
Prima di iniziare, ti consigliamo di completare i contenuti seguenti, che forniscono la base di conoscenze da cui parte questo modulo.
-
Trailhead: Agentforce: pianificare gli agenti
-
Trailhead: Nozioni di base sul Generatore Agentforce
-
Trailhead: Einstein Trust Layer
Introduzione
L’intelligenza artificiale (IA) e la diffusione degli agenti IA stanno riformulando il modo in cui pensiamo allo sviluppo del software. In molte organizzazioni, gli stessi amministratori e sviluppatori Salesforce che hanno trascorso anni ad amministrare e personalizzare le soluzioni Salesforce sono ora chiamati a creare gli agenti Agentforce. Tutto questo richiede un cambiamento nelle loro competenze, negli strumenti che utilizzano e nel loro modo di pensare. Mentre la nota gestione tradizionale del ciclo di vita delle applicazioni (ALM), con le fasi di ideazione, configurazione, testing, distribuzione e osservazione, si applica anche al processo del ciclo di vita dello sviluppo degli agenti (ADL), l’inserimento dell’IA generativa in questo contesto può dare luogo ad alcuni colpi di scena inaspettati, soprattutto per quanto riguarda il testing degli agenti.

In questo modulo scoprirai quali sono gli strumenti disponibili per il testing e la risoluzione dei problemi degli agenti, oltre a considerazioni che ti aiuteranno a eseguire il testing e strategie di testing che puoi utilizzare per rendere più accurate e prevedibili le risposte degli agenti.
Ragioni per eseguire il testing
Se hai ottenuto il badge Agentforce: pianificazione degli agenti, hai seguito Nora Alami di Coral Cloud Resorts durante la sua pianificazione di un agente in grado di creare e gestire le prenotazioni dei clienti. Hai appreso come definire criteri come il pubblico, l’ambito, i casi d’uso, le salvaguardie e le attività che verranno eseguite dall’agente. Queste specifiche corrispondono a ciò che il testing che esegui dovrebbe convalidare per assicurare che le prestazioni dell’agente siano in linea con i compiti per i quali lo hai progettato.
Strumenti per testare e risolvere i problemi dell’agente
Assicurarsi che l’agente risponda in modo preciso e prevedibile agli input degli utenti può sembrare un compito arduo, soprattutto se si considerano tutte le richieste degli utenti che gli argomenti, le azioni e le salvaguardie devono essere in grado di gestire. Con così tante variabili in gioco, la causa di una risposta imprecisa, di un messaggio di errore o di un’allucinazione potrebbe risiedere all’interno di un’istruzione, un’azione, dei dati o un insieme di autorizzazioni. Ecco perché Agentforce Studio offre due livelli di testing, per darti la certezza che il tuo agente sia pronto a fornire prestazioni affidabili e prevedibili: testing manuale nel Generatore Agentforce e testing su larga scala nel Centro test.
Strumenti di testing e risoluzione dei problemi del Generatore Agentforce
Una volta creato l’agente in Agentforce Creator, puoi iniziare a testarlo nel Generatore Agentforce. Puoi provare le conversazioni nel riquadro Conversation Preview (Anteprima conversazione) per vedere le prestazioni dell’agente. È possibile rivedere i passaggi che sono stati necessari per la restituzione della risposta che hai ricevuto esaminando i dettagli nell’area di disegno del piano. Inoltre, puoi esaminare i registri eventi dell’agente per vedere dettagli specifici della sessione e della conversazione.
Conversation Preview (Anteprima conversazione) (1): è emozionante arrivare alla fase del Generatore Agentforce in cui puoi iniziare a conversare con l’agente nel riquadro Conversation Preview (Anteprima conversazione). Qui puoi simulare le conversazioni che gli utenti potrebbero avere con l’agente, in modo da verificare se risponde come desideri. Le risposte che genera ti consentono di verificare se l’agente fornisce risposte utili e pertinenti, indica le azioni corrette, fa riferimento ai processi aziendali in modo corretto e rimane entro le salvaguardie stabilite.
Plan canvas (Area di disegno piano) (2): ogni volta che inserisci un input nella finestra di anteprima della conversazione, il riquadro al centro, chiamato “area di disegno piano”, si aggiorna per mostrarti come l’agente ha elaborato la sua risposta. L’area di disegno del piano mostra l’input iniziale che hai fornito, l’argomento selezionato, le azioni chiamate e le istruzioni utilizzate. Inoltre, puoi vedere il ragionamento seguito dall’agente per generare la risposta e qualsiasi dato pertinente che gli è stato consentito di utilizzare per fornire una risposta più personale e precisa.
La risposta e i dettagli che ricevi ti aiutano a individuare dove puoi perfezionare l’agente perché fornisca risposte in linea con il piano. Puoi testare un input, rivedere l’agente e testarlo di nuovo: basta aggiornare la finestra Conversation Preview (Anteprima conversazione) tra i diversi input e applicare gli aggiornamenti.

Registri eventi ottimizzati
Mentre i dettagli delle tue interazioni nel riquadro Conversation Preview (Anteprima conversazione) cessano di essere visibili ogni volta che aggiorni l’agente, i registri eventi ottimizzati catturano e memorizzano le interazioni di una sessione agente permettendoti di visualizzare il flusso di una conversazione per migliorare le risposte. Per utilizzare i registri eventi ottimizzati, devi abilitare l’impostazione in Agentforce Creator, sulla schermata Customize your agent (Personalizza l’agente), selezionando la casella Keep a record of conversations with Enhanced Event Logs to review agent behavior (Conserva una registrazione delle conversazioni con i registri eventi ottimizzati per riesaminare il comportamento dell’agente). Puoi anche abilitare l’opzione Enhanced Event Logs (Registri eventi ottimizzati) in un secondo momento nella scheda Details (Dettagli) delle impostazioni dell’agente.

L’accesso ai registri eventi ottimizzati è utile dopo l’avvio dell’agente, poiché consente di esaminare i tipi di conversazioni che gli utenti hanno con gli agenti, inclusi gli input forniti all’agente e le relative risposte. Questo può aiutarti a individuare e risolvere eventuali problemi o a regolare l’agente per gestire input che non avevi previsto. I registri degli eventi ti consentono di sapere se è necessario impostare ulteriori misure di salvaguardia o perfezionare le istruzioni o le azioni per fornire risposte più mirate. Il Generatore Agentforce conserva i registri degli eventi per 7 giorni, consentendoti di rivedere retroattivamente i dati delle conversazioni e l’attività delle sessioni in un unico posto.

Centro test
Dopo aver perfezionato le prestazioni dell’agente nel Generatore Agentforce, puoi iniziare a eseguire test in batch nel Centro test. Per accedere al Centro test da Setup (Imposta), cerca e seleziona Testing Center (Centro test) nella casella Quick Find (Ricerca veloce). In alternativa, nel Generatore Agentforce, fai clic sul pulsante Batch Test (Test in batch) sopra il riquadro Conversation Preview (Anteprima conversazione).

Forse penserai: visto che ho già testato l’agente nel Generatore Agentforce, perché devo fare il test in batch nel Centro test? In realtà ci vorrebbe molto tempo per pensare a tutti i modi in cui un utente potrebbe porre una domanda o interagire con l’agente, per poi testarli a uno a uno nella finestra di anteprima della conversazione. Il Centro test semplifica questo passaggio testando decine o anche centinaia di scenari contemporaneamente. Ad esempio, puoi caricare un file .csv contenente scenari di testing che hai scritto in linguaggio naturale oppure puoi chiedere al Centro test di utilizzare l’IA per generare input di test pertinenti alle mansioni svolte dall’agente.
Quando viene eseguito un test in batch, i risultati mostrano l’input che è stato testato insieme agli argomenti e alle azioni previste ed effettive che ha richiamato, alla risposta prevista e alla conferma che ogni input sia stato superato o meno. Se hai bisogno di ulteriori informazioni sul motivo per cui un input di test non è riuscito, puoi copiarlo e incollarlo nel riquadro Conversation Preview (Anteprima conversazione) del Generatore Agentforce e rivedere il percorso seguito dall’agente per arrivare alla risposta non riuscita sull’area di disegno del piano. Questo ti aiuterà a perfezionare ulteriormente le istruzioni, migliorando così l’esperienza dell’utente. Per informazioni dettagliate sul Centro test e sulla scrittura o la generazione di scenari di testing, vedi Agentforce: testing degli agenti.
Considerazioni sul testing degli agenti
Nel testing tradizionale delle applicazioni, si pianifica ogni dettaglio dell’applicazione prima ancora di iniziare a crearla. Il successo si misura in base alla produzione di risultati prevedibili e ripetibili: è deterministico. La soluzione funziona come previsto oppure no. D’altra parte, anche se lo sviluppo di un agente richiede una pianificazione preliminare, è possibile perfezionarlo, testarlo e modificarlo in fase di creazione. Il testing degli agenti è probabilistico, il che significa che i risultati possono essere meno prevedibili, univoci e, a volte, sorprendenti a causa della mancanza di logica basata su regole dell’IA generativa. Lo stesso input può generare molte risposte diverse e comunque corrette, oltre a risposte errate o persino allucinazioni. Inoltre, è difficile prevedere tutti i modi in cui un utente potrebbe interagire con l’agente, quindi occorre tenere presenti e testare una varietà di scenari durante la sua creazione. Così facendo riduci al minimo le risposte che non corrispondono all’input dell’utente o che sono inaccurate.
Determinare quando l’agente è pronto per la produzione
La natura probabilistica del comportamento degli agenti non aiuta a stabilire con certezza quando l’agente è pronto per la produzione. Ogni azienda deve stabilire i propri punti di riferimento rispetto alle percentuali di successo/insuccesso nei vari scenari. Non esiste una risposta giusta e il livello di precisione desiderato può variare a seconda del settore. Un buon punto di partenza è considerare con quanta precisione un essere umano svolgerebbe lo stesso compito, ad esempio gestire le domande relative alle prenotazioni, e utilizzare questo dato come riferimento. In seguito potrai impegnarti affinché l’agente raggiunga o superi tale livello di precisione.
Eseguire sempre il testing in un Sandbox
Il testing degli agenti può modificare i dati del CRM, quindi utilizza sempre il Centro test in un ambiente Sandbox, mai nell’ambiente di produzione.
Utilizzare più criteri per valutare la risposta
Per ottenere le risposte desiderate dagli input che inserisci nel riquadro Conversation Preview (Anteprima conversazione), probabilmente saranno necessari alcuni tentativi. Creare un agente è un processo iterativo. Inoltre, per tenere conto dei vari tipi di input, è necessario apportare alcune modifiche, tra cui la revisione del testo, la verifica delle autorizzazioni, la convalida dei dati o l’aggiunta di ulteriori dettagli o misure di salvaguardia alle istruzioni. Il feedback che riceverai sull’area di disegno del piano, sui registri degli eventi o sul Centro test ti aiuterà a individuare e identificare gli aspetti che devi perfezionare negli argomenti, nelle azioni o nelle istruzioni dell’agente per ottenere risposte più vicine al livello di accuratezza che desideri.
Ecco alcuni aspetti fondamentali da tenere presenti quando si testa l’agente, con indicazioni su come affrontarli.
Considerazioni sul testing |
Modi di perfezionare l’agente |
|---|---|
L’agente ha seguito le mie istruzioni? |
|
La risposta è accurata, completa e facile da leggere? |
|
La risposta è radicata nel contesto dei miei dati? |
|
La risposta è in linea con la voce del marchio? |
|
Quanto tempo ci è voluto per rispondere? |
|
La risposta contiene bias o tossicità? |
|
La risposta è sempre affidabile? |
|
Costi del testing
Un’ultima considerazione sul testing riguarda i costi. Il testing dell’agente nel Centro test può portare al consumo di crediti Flex, Conversazioni o Richieste Einstein, oltre che di crediti Data 360. Queste richieste e crediti sono metriche di utilizzo fatturabili per l’IA generativa che comportano costi per l’organizzazione. Per saperne di più, consulta la documentazione della guida Tipi di utilizzo fatturabili dell’IA generativa o parla con un responsabile account.
Conclusioni
Il testing degli agenti richiede un modo di pensare e di lavorare diverso rispetto al tradizionale testing delle applicazioni. Se si considerano tutte le variabili che possono influire sulle risposte dell’agente, non c’è da stupirsi che un efficace testing dell’agente sia più soggettivo rispetto al testing tradizionale del software. Padroneggiare gli strumenti di testing di Agentforce e comprendere come mitigare i fattori che influenzano le prestazioni dell’agente può aiutarti a raggiungere rapidamente il livello di accuratezza che desideri. Nella prossima unità imparerai l’importanza della creazione di una strategia di testing dell’agente per guidare le tue prove.
