Perfezionare gli agenti usando una strategia di test in cinque passaggi

Obiettivi di apprendimento

Al completamento di questa unità, sarai in grado di:

Spiegare perché è importante avere una strategia di testing prima di iniziare a testare un agente.
Descrivere la strategia in cinque passaggi per testare gli agenti.

Perché attenersi a una strategia di test?

Eseguire test sugli agenti è fondamentale per rilasciare agenti affidabili. Gli strumenti di Agentforce Studio offrono diversi modi di assicurarsi che gli agenti gestiscano le operazioni che hai pianificato. Come abbiamo visto nell’unità precedente, testare in modo completo i molti modi in cui un utente può interagire con un agente può rappresentare una vera sfida. Con così tante variabili in gioco, è opportuno avere a disposizione una strategia di testing prima di iniziare. In questa unità scoprirai come testare il tuo agente dopo averlo perfezionato nel Generatore Agentforce.

Una strategia in cinque passaggi per testare gli agenti

Il ciclo di testing degli agenti IA è una strategia passo-passo che ti guida nella messa a punto dei tuoi agenti in modo che siano pronti per gli utenti. Si creano gli scenari di test, si selezionano le metriche di valutazione ed si eseguono test automatizzati. Successivamente, si convalidano i risultati e si utilizza il feedback per rifinire ulteriormente parti del tuo agente per migliorarne l’accuratezza e le prestazioni.

La strategia in 5 passaggi di Agentforce per testare gli agenti corrispondente alle descrizioni che seguono.

Passaggio 1: identificare gli scenari e creare i dati di test.

Dopo aver testato manualmente una serie di input utente nel riquadro Preview (Anteprima) e aver modificato l’agente in base alle sue risposte, puoi iniziare a testare l’agente in batch in Suite di test (beta). Il primo passaggio nell’esecuzione di test in batch è identificare i tipi di input da testare. Puoi creare e caricare i tuoi scenari di test scrivendoli in linguaggio naturale; in alternativa, in Test Suites (Beta) (Suite di test (beta)), fai clic su Create test suite (Crea suite di test) per utilizzare l’IA per generare casi di test usando i metadati dell’agente e i dati a cui l’agente può accedere. Sia che tu scriva gli scenari di test autonomamente o chieda all’IA di generarli, è utile sapere cosa ti permette di creare uno scenario di test efficace, quindi diamo un’occhiata.

Quando hai pianificato l’agente, ne hai definito l’ambito e le funzionalità. Ad esempio, il nostro agente dell’assistenza di Coral Cloud include i seguenti agenti secondari e azioni che definiscono alcuni dei compiti e delle attività associati alle esperienze che l’agente svolgerà.

L’agente secondario Experience Management (Gestione esperienze) si occupa delle richieste dei clienti relative alla prenotazione di esperienze presso Coral Cloud Resorts, tra cui l’inserimento e la modifica di prenotazioni e la risposta a domande sui dettagli delle esperienze.
L’azione Create Experience Session Booking (Crea prenotazione sessione di esperienza) utilizza un flusso per creare una nuova prenotazione di un’esperienza per uno o più ospiti.

Per ottenere scenari di test efficaci, nel Generatore Agentforce, rivedi gli agenti secondari dell’agente, inclusi i campi Classification Description (Descrizione classificazione) e Scope (Ambito), che descrivono le funzionalità dell’agente e i parametri entro i quali deve operare. Rivedi anche ogni istruzione che stabilisce in che modo si comporta l’agente. Poi scrivi (o genera in Suite di test (beta)) un input che esegua un test usando questi dettagli per assicurarti che l’agente operi in modo affidabile in ciascuno scenario. Ad esempio, ecco alcuni possibili scenari di test per l’agente secondario Experience Management (Gestione esperienze) che abbiamo descritto.

Tell me about the _____________ experience. (Parlami dell’esperienza _____________.)
Do you have any bookings for the _____________ experience in July? (Ci sono prenotazioni per l’esperienza _____________ a luglio?)
I need to change my booking. (Devo modificare la mia prenotazione.)
I’d like to confirm my booking. (Vorrei confermare la mia prenotazione.)

Per testare meticolosamente l’agente sono necessari un certo numero di scenari che assicurino la copertura per tutti i tipi di input. Un buon insieme di input di test è caratterizzato da questi attributi.

Volume: un numero sufficiente di casi di test per garantire la copertura di diversi scenari e casi limite.
Diversità: un’ampia gamma di input, contesti e variazioni per testare l’adattabilità dell’agente IA in molti casi d’uso del mondo reale, inclusi input che non rientrano nell’ambito dell’agente o che possono mettere in difficoltà le salvaguardie dell’agente.
Qualità: casi d’uso ben definiti, accurati e pertinenti allineati con gli obiettivi dell’agente.

Suite di test (beta) memorizza i propri scenari di test in file CSV. Se sei tu a creare gli input di test, dovrai creare un file CSV. Se invece chiedi all’IA di generarli, puoi scaricare quei test in un file CSV e utilizzarli così come sono oppure modificarli.

Ti consigliamo di iniziare a eseguire i test generando 10 o 20 scenari di test in Suite di test (beta) e scaricare il file CSV per confrontarlo con i parametri dell’agente. In questo modo risparmi tempo e potrai rivedere questi scenari e aggiungerne altri per allinearti ai tipi di input che ti aspetti dagli utenti. Man mano che le prestazioni dell’agente migliorano, potrai generare batch di scenari di test più grandi.

Passaggio 2: impostare i parametri di valutazione.

I casi di test generati da Suite di test (beta) includono le impostazioni che selezioni mentre segui le indicazioni che ti guidano attraverso le quattro schermate del flusso di lavoro New Test (Nuovo test). Dopo aver fornito le informazioni di base sul test, come il nome e l’agente che stai testando, puoi scegliere di includere variabili di contesto che simulano le informazioni sull’utente o il contesto della conversazione. Puoi anche decidere in che modo Suite di test (beta) valuta le prestazioni e la qualità dell’agente. È una buona idea testare tutte le opzioni relative ai criteri di valutazione per assicurarti che l’agente sia affidabile e offra prestazioni ottimali.

Fai clic su Next (Avanti) o Previous (Indietro) sotto il riquadro blu per visualizzare i quattro passaggi per generare i casi di test degli agenti.

Dopo aver completato il flusso di lavoro New Test (Nuovo test), se fai clic su Generate Test Cases (Genera casi di test), vedrai un elenco di test che corrispondono ai criteri che hai selezionato. Se hai caricato un file CSV di input di test che hai scritto, li vedrai nell’elenco. Un caso di test convalida il modo in cui l’agente elabora gli input, a cui si fa riferimento come enunciazioni. Ogni caso di test include:

Utterance (Enunciazione): la query di input all’agente
Expected Subagent (Agente secondario previsto): l’agente secondario pertinente che l’agente deve valutare
Expected Actions (Azioni previste): le azioni correlate che l’agente deve eseguire
Expected Response (Risposta prevista): il risultato desiderato descritto in linguaggio naturale

Suite di test (beta) che mostra i campi di ciascuno scenario di test che vengono valutati in fase di esecuzione.

Passaggio 3: eseguire i test e valutare i risultati.

Dopo aver completato il flusso di lavoro New Test (Nuovo test), fai clic su Run Test Suite (Esegui suite di test) per eseguire i test e verificarne le prestazioni. Puoi rivedere i risultati dei test osservando la risposta reale dell’agente per ciascun criterio di valutazione che hai selezionato nel flusso di lavoro New Test (Nuovo test).

Passaggio 4: convalidare i risultati.

Anche se i test generati coprono vari scenari e indicano se sono stati superati o meno, è importante che una persona verifichi le risposte per assicurarsi che siano in linea con il modo in cui gli utenti interagiscono con l’agente e con il modo in cui l’agente deve rispondere e che non producano risultati tossici o indesiderati. Rivedere gli input e le risposte in questo passaggio può anche aiutare a individuare sottigliezze sfuggite, come incongruenze di tono o imprecisioni specifiche del contesto.

Un test in batch completato con indicazione di test superati e non superati in Suite di test (beta).

Passaggio 5: rivedere i risultati ed eseguire iterazioni.

Ricorda che l’esecuzione di test è un processo iterativo. I risultati dei test possono essere utilizzati per perfezionare gli agenti secondari, le azioni e le istruzioni finché non si raggiunge un livello di accuratezza soddisfacente. I test possono anche rivelare la presenza di dati non aggiornati a cui l’agente può accedere o autorizzazioni che richiedono modifiche.

Ripetere i test sugli agenti

Gli agenti si evolvono, proprio come la tua azienda, quindi ripetere i test per assicurare la continuità di accuratezza e affidabilità è importante. Esistono molti fattori che possono influire sulle prestazioni degli agenti, tra cui modifiche ai dati che utilizzano, autorizzazioni, aggiornamenti di agenti secondari, azioni o prompt oppure modifiche a funzionalità di prodotti correlati o processi aziendali. Eseguire regolarmente dei test permetterà all’agente di evolvere e quindi di stare al passo con i cambiamenti degli obiettivi aziendali.

Conclusioni

I test sono la base della creazione di agenti IA affidabili, efficienti e sicuri. Seguendo una strategia di testing, è possibile assicurare che gli agenti Agentforce siano attendibili e utili per gli utenti.

Risorse

Scenario del quiz

Maria è un amministratrice Agentforce presso una grande catena alberghiera, Global Stay Resorts. Le è stato chiesto di perfezionare un agente IA progettato per gestire le prenotazioni dei clienti. L’agente è stato testato manualmente nel Generatore Agentforce e Maria ora è pronta a implementare una strategia di test più completa per garantirne l’affidabilità e l’accuratezza prima del lancio definitivo. Maria si concentra in particolare sull’anticipazione dei vari input utente e sull’assicurare che le risposte dell’agente siano in linea con la voce del brand e i processi aziendali.

Tempo stimato

Argomenti

Hai bisogno di aiuto?

Risorse per Agentforce