Esplorare i modelli di generazione di immagini
Obiettivi di apprendimento
Al completamento di questa unità, sarai in grado di:
- Descrivere i vantaggi dell'utilizzo di modelli di diffusione rispetto alle reti generative avversarie.
- Identificare gli strumenti di IA generativa più popolari e descriverne gli utilizzi.
Passare dalle parole alle immagini
Pur essendo una tecnologia relativamente nuova, l'intelligenza artificiale generativa (IA gen) sta già aiutando le persone e le organizzazioni a lavorare in modo più efficiente. È possibile che ti sia già capitato di usarla per riassumere le minute di una riunione, per creare una prima bozza per un progetto di scrittura o per scrivere del codice. Questi impieghi degli strumenti di IA generativa hanno un aspetto in comune: riguardano esclusivamente una qualche forma di creazione di testo.
Esiste un altro mondo di strumenti di IA generativa in grado di creare immagini, oggetti 3D e animazioni di alta qualità, utilizzando la potenza dei grandi modelli linguistici (LLM). Quindi, se hai già iniziato a usare l'IA per potenziare le attività di scrittura, è probabile che tu possa beneficiare dell'IA generativa per arricchire il tuo lavoro con immagini e animazioni.
In questo badge scoprirai alcune delle funzionalità dell'IA generativa attualmente disponibili e in rapido miglioramento nel campo multimediale. Scoprirai modi per incorporare efficacemente l'IA generativa nel tuo flusso di lavoro. E rifletterai su alcune delle questioni più complesse legate all'uso responsabile dell'IA generativa per la creazione di immagini.
Progressi nei modelli di IA
Fermiamoci un attimo per valutare come questo mondo è stato influenzato dai large language model. Prima dell'effettiva diffusione degli LLM, i ricercatori hanno addestrato per anni l'IA affinché producesse immagini. Tuttavia, quei modelli erano soggetti a limitazioni abbastanza significative.
Ad esempio, un tipo di architettura di reti neurali che sembrava particolarmente promettente era la rete avversaria generativa o GAN (Generative Adversarial Network). In breve, due reti venivano configurate in modo da riprodurre il gioco del gatto che dà la caccia al topo. Mentre una rete tentava di creare immagini realistiche, l'altra mirava a distinguere tra le immagini generate dalla prima rete e le immagini reali. Con il passare del tempo, la prima rete era diventata molto abile nell'ingannare la seconda.
Questo metodo è in grado di generare immagini molto convincenti di qualsiasi tipo di soggetto, incluse le persone. Tuttavia, di solito le GAN sono ottime per creare immagini di un solo tipo di soggetto. Quindi, una GAN che crea immagini di gatti perfette genera immagini di topi di qualità infima. Esiste inoltre la possibilità che una GAN sia soggetta a "model collapse", fenomeno per cui la prima rete crea ripetutamente una stessa immagine qualora questa risulti notoriamente in grado di ingannare la seconda. Un'IA che crea una sola immagine non è propriamente utile.
Al contrario, quel che sarebbe davvero utile è un modello di IA in grado di creare immagini di una varietà di soggetti, che si tratti di gatti, topi o gatti mascherati da topi.
Immagine generata da IA usando DreamStudio su stability.ai con il prompt: "A cute, hand-drawn image of a cat wearing a mouse costume" (Graziosa immagine, disegnata a mano, di un gatto che indossa un costume da topo).
Come dimostrato dall'immagine qui sopra, generata dall'IA, questi modelli esistono già! Sono noti come modelli di diffusione in quanto la matematica sottostante si riferisce al fenomeno fisico della diffusione di qualcosa, ad esempio una goccia di colorante in un bicchiere d'acqua. Come per la maggior parte dei modelli di IA, i dettagli tecnici sono trattati nel quadro di ricerche incredibilmente complesse.
Quel che è importante sapere è che i modelli di diffusione sono addestrati per creare connessioni tra le immagini. Il fatto che Internet sia zeppa di immagini di gatti con didascalie rappresenta senz'altro un valido aiuto. Con una quantità di campioni sufficiente, il modello può estrarre l'essenza di "gatto", "topo" e "costume" per poi infonderla in un'immagine generata usando i principi della diffusione. È complicato, ma i risultati sono spesso sorprendenti.
Il numero dei modelli di diffusione disponibili aumenta di giorno in giorno, ma i quattro più conosciuti sono: DALL-E, Imagen, Stable Diffusion e Midjourney. Ognuno di questi si differenzia per i dati utilizzati per l'addestramento, il modo in cui incorpora i dettagli linguistici e il modo in cui gli utenti possono interagire con il modello per controllare l'output. Di conseguenza, i risultati variano in modo significativo di modello in modello. E un modello che oggi funziona bene potrebbe essere soppiantato domani da uno ancora migliore man mano che la ricerca e lo sviluppo progrediscono.
Usi dell'IA generativa per le immagini
L'IA generativa può fare di più che creare graziose immagini di gatti in stile fumetto. I modelli di IA generativa sono spesso sottoposti a fine-tuning e combinati ad altri algoritmi e modelli di IA. Questo permette ad artisti e appassionati di creare, manipolare e animare le immagini in diversi modi. Vediamo alcuni esempi.
Text-to-Image
Con l'IA generativa text-to-image puoi raggiungere un numero incredibile di risultati artistici di grande varietà. Nel nostro esempio abbiamo scelto l'immagine di un gatto in stile disegno a mano. Ma avremmo potuto optare per uno stile iperrealistico o rappresentare il soggetto come un mosaico. Qualunque cosa immagini può essere rappresentata con discreto successo dai modelli di diffusione.
Nella prossima unità scoprirai alcuni suggerimenti per arrivare ai migliori risultati possibili; per ora, devi capire che il primo limite a ciò che puoi creare è ciò che riesci a immaginare. Dai un'occhiata alle creazioni di altre persone realizzate con diversi modelli di diffusione.
Di recente è emersa la possibilità di utilizzare la generazione di immagini in linea con la generazione di testo. In pratica, mentre sviluppi una storia con l'aiuto di alcuni strumenti GPT, questi possono servirsi del contesto per generare un'immagine. Meglio ancora, se hai bisogno di un'altra immagine che includa lo stesso soggetto, come il nostro gatto in costume, i modelli possono usare la prima immagine come riferimento per mantenere la coerenza del personaggio.
Modello text-to-3D
Di solito, gli strumenti per la creazione di modelli 3D sono tecnici e il loro uso richiede un livello di competenza elevato. Eppure, al giorno d'oggi, i modelli 3D sono impiegati diffusamente in tutti i settori, dal commercio alla produzione e all'intrattenimento. Lasciamo che l'IA generativa contribuisca a soddisfare una parte della domanda. I modelli come quello utilizzato per DreamFusion possono generare modelli 3D stupefacenti, corredati da risorse di supporto per descriverne la colorazione, l'illuminazione e le proprietà dei materiali.
Image-to-image
Se un'immagine vale quanto mille parole, pensa a quanto è utile nell'ambito del prompt per un modello di IA generativa! Alcuni modelli sono addestrati per estrarre significato dalle immagini, mediante un addestramento simile a quello usato per la generazione text-to-image. Su questa traduzione bidirezionale si basano i casi d'uso seguenti.
-
Trasferimento di stile: inizia con un semplice schizzo e una descrizione di quanto accade nella scena e lascia che l'IA generativa aggiunga tutti i dettagli. L'output può richiamare uno stile artistico specifico, ad esempio un dipinto rinascimentale o un disegno architettonico. Alcuni artisti ripetono questo processo più volte per costruire un'immagine.
-
Cancellazione di dettagli: immagina di visitare la Torre di Pisa e di scattare una bellissima foto di te che la reggi con la sola forza delle tue braccia. Purtroppo, nella foto si vedono altre venti persone che stanno facendo la stessa cosa. Ma non è un problema: ora puoi tagliarle fuori dalla foto e lasciare che l'IA riempia i buchi con prato e cielo realistici per un risultato impeccabile.
-
Inserimento di dettagli: che aspetto avrebbe quella pantera con un cappello buffo in testa? Un modo per scoprirlo c'è, ma è pericoloso. Altrimenti, puoi andare sul sicuro e usare l'IA generativa. Gli strumenti individuano le posizioni specifiche in cui inserire gli oggetti in una scena e, come per magia, fanno in modo che sembri che siano sempre stati lì.
-
Estensione dei bordi di un'immagine: l'IA generativa si basa sul contesto dell'immagine per estenderla inserendo ciò che è probabile che appaia oltre il bordo.
Animazione
Dato che ogni immagine generata presenta una certa dose di casualità, la creazione di una serie di immagini leggermente diverse tra loro rappresenta una sfida per l'IA generativa. Così, quando le immagini vengono riprodotte l'una dopo l'altra, le variazioni diventano evidenti, con linee e forme che cambiano posizione e aspetto. Ma i ricercatori hanno sviluppato metodi per ridurre questo effetto, in modo che le animazioni generate offrano un livello di coerenza accettabile.
Tutti i casi d'uso precedenti per le immagini fisse possono essere adattati in qualche modo all'animazione. Ad esempio, con il trasferimento di stile, il video di uno skateboarder che esegue un'acrobazia può essere trasformato in un video in stile anime. Un altro esempio è l'uso di un modello addestrato su schemi vocali per animare le labbra di un personaggio 3D generato.
Le possibilità di creare immagini stupefacenti con l'IA generativa sono tante. Nella prossima unità imparerai come usare in modo responsabile le funzionalità offerte dall'IA generativa.
Risorse