Exploration des modèles de génération d’images
Objectifs de formation
Une fois cette unité terminée, vous pourrez :
- Décrire les avantages de l’utilisation de modèles de diffusion par rapport aux réseaux antagonistes génératifs
- Identifier les outils d’IA générative populaires et décrire leur utilisation
Des mots aux images
Bien que l’intelligence artificielle générative (IA générative) soit une technologie relativement récente, elle aide déjà les personnes et les entreprises à travailler plus efficacement. Peut-être l’avez-vous déjà utilisée pour résumer des notes de réunion, faire l’ébauche d’un projet d’écriture ou rédiger du code. Ces utilisations des outils d’IA générative ont toutes un point commun : elles sont uniquement axées sur la création de texte sous une forme ou une autre.
Il existe un autre monde dans lequel des outils d’IA générative sont capables de créer des images de haute qualité, des objets 3D et des animations, le tout en utilisant la puissance des grands modèles de langage (LLM). Ainsi, si vous avez commencé à utiliser l’IA générative pour optimiser les tâches d’écriture, il est probable que vous puissiez l’utiliser pour améliorer votre travail avec des images et des animations.
Dans ce badge, vous découvrirez certaines des capacités actuelles de l’IA générative, qui progressent rapidement, dans le domaine des multimédias. Vous apprendrez également comment intégrer efficacement l’IA générative à votre flux de travail. Par ailleurs, vous réfléchirez à certaines problématiques relatives à l’utilisation responsable de l’IA générative pour la création d’images.
Avancées relatives aux modèles d’IA
Prenons le temps de mesurer à quel point ce monde a été impacté par les grands modèles de langage. Avant l’essor des LLM, les chercheurs ont entraîné pendant des années les IA à générer des images. Toutefois, ces modèles ont été limités de manière assez significative.
Par exemple, les réseaux antagonistes génératifs (RAG) étaient un type d’architecture de réseau neuronal prometteur. Pour faire court, deux réseaux étaient mis en compétition dans un scénario de théorie des jeux. Le premier générait des images réalistes, tandis que le second essayait de différencier les images générées des images réelles. Progressivement, le premier réseau est devenu très efficace pour tromper le second.
Cette méthode permet de générer des images très réalistes de toutes sortes de sujets, y compris des personnes. Cependant, les RAG excellent généralement dans la création d’images d’un seul type de sujet. Ainsi, un RAG qui est très doué pour créer des images de chats serait très mauvais pour créer des images de souris. Il est également possible qu’un RAG subisse un « effondrement des modes », c’est-à-dire que le premier réseau crée la même image en permanence, car celle-ci est connue pour toujours réussir à tromper le second réseau. Une IA qui ne crée qu’une seule image n’est pas vraiment utile.
Ce qui serait vraiment utile, c’est un modèle d’IA capable de créer des images d’une variété de sujets, que nous lui demandions de générer une image de chat, de souris ou de chat déguisé en souris.
Image générée par l’IA à l’aide de DreamStudio sur stability.ai avec l’invite suivante : « Une jolie illustration dessinée à la main d’un chat portant un costume de souris. »
Comme le montre l’image générée par l’IA ci-dessus, ces modèles existent déjà ! Ils sont connus sous le nom de modèles de diffusion, car les calculs sous-jacents se rapportent au phénomène physique de la diffusion d’un élément, comme une goutte de colorant dans un verre d’eau. Comme pour la plupart des modèles d’IA, les détails techniques font l’objet de documents de recherche incroyablement complexes.
Ce qu’il faut retenir, c’est que les modèles de diffusion sont entraînés à établir des liens entre les images et le texte. Le fait qu’il y existe beaucoup de photos de chats légendées sur Internet est une aide précieuse. Avec suffisamment d’échantillons, un modèle peut extraire la représentation du « chat », de la « souris » et du « costume ». Ensuite, il intègre cette représentation à une image générée en utilisant les principes de diffusion. Ce n’est pas toujours évident, mais les résultats sont souvent étonnants.
Le nombre de modèles de diffusion disponibles augmente de jour en jour, mais les 4 plus connus sont les modèles DALL-E, Imagen, Stable Diffusion et Midjourney. Les différences de ces modèles résident dans les données utilisées pour l’entraînement, la manière dont ils intègrent les détails du langage et la façon dont les utilisateurs peuvent interagir avec eux pour contrôler la sortie. Les résultats diffèrent donc considérablement d’un outil à l’autre. À mesure que la recherche et le développement s’accélèrent, les modèles deviennent de plus en plus performants et se surpassent les uns les autres.
Utilisations de l’IA générative pour la création d’images
L’IA générative peut créer bien plus que de jolis dessins de chats. Les modèles d’IA générative sont souvent ajustés et combinés avec d’autres algorithmes et modèles d’IA. Cela permet aux artistes et aux amateurs de créer, de manipuler et d’animer des images de diverses manières. Voyons quelques exemples.
Modèle permettant de passer d’un texte à une image
Vous pouvez obtenir une incroyable variété artistique en utilisant un modèle d’IA générative permettant de passer d’un texte à une image. Dans notre exemple, nous avons choisi une illustration d’un chat, faite à la main. Nous aurions cependant pu opter pour un style hyperréaliste ou représenter la scène sous forme de mosaïque de tuiles. Si vous pouvez imaginer votre intention, les modèles de diffusion peuvent la générer de manière plutôt efficace.
Dans l’unité suivante, vous découvrirez nos conseils pour obtenir de meilleurs résultats. Mais pour l’instant, vous devez comprendre que la première limite à ce que vous pouvez créer est ce que vous pouvez imaginer. Découvrez ce que d’autres utilisateurs créent grâce aux différents modèles de diffusion.
La possibilité d’utiliser la génération d’images conjointement avec la génération de texte est apparue récemment. Ainsi, à mesure que vous développez une histoire avec certains outils GPT, ceux-ci peuvent utiliser le contexte pour générer une image. Mieux encore, si vous avez besoin d’une autre image sur le même sujet, comme notre chat en costume, ces modèles peuvent utiliser la première image comme référence afin de maintenir la cohérence du personnage.
Modèle permettant de passer d’un texte à une image 3D
Généralement, les outils permettant de créer des modèles 3D sont techniques et leur maîtrise requiert un niveau de compétence élevé. Pourtant, nous sommes à une époque où les modèles 3D sont de plus en plus présents, du commerce à la fabrication, en passant par le divertissement. Laissons l’IA générative contribuer à répondre à une partie de la demande. Les modèles comme celui utilisé pour DreamFusion peuvent générer d’incroyables modèles 3D, ainsi que des ressources annexes pour décrire les propriétés de coloration, de luminosité et de matière des modèles.
Modèle permettant de générer une image à partir d’une autre image
Si une image vaut mille mots, imaginez à quel point elle peut être utile dans le cadre d’une invite de modèle d’IA générative ! Certains modèles sont entraînés à extraire le sens des images, en utilisant un entraînement semblable à celui qui permet de générer une image à partir d’un texte. Cette conversion bidirectionnelle constitue la base des cas d’utilisation ci-dessous.
-
Transfert de style : commencez par un simple croquis et une description de ce qui se passe dans la scène, puis laissez l’IA générative compléter les détails. La sortie peut être générée dans un style artistique spécifique, comme une peinture de la Renaissance ou un dessin d’architecture. Certains artistes procèdent de manière itérative pour créer une image.
-
Remplacement de détails : imaginez que vous visitez la tour de Pise et que vous preniez une superbe photo de vous en train de faire semblant de la soutenir de toutes vos forces. Malheureusement, 20 autres personnes faisant la même chose apparaissent sur la photo. Ne vous inquiétez pas, vous pouvez désormais couper ces personnes et laisser l’IA les remplacer par de l’herbe et un ciel réalistes afin de créer une photo parfaite.
-
Ajout de détails : quel effet pourrait avoir une panthère avec un chapeau de fête ? Il existe deux façons de le savoir : soit vous prenez des risques en faisant appel à une vraie panthère, soit vous faites appel à l’IA générative, ce qui est plus sûr. Les outils identifient les emplacements idéaux pour placer les éléments souhaités dans une scène et ces derniers apparaissent comme par magie, comme s’ils avaient toujours été là.
-
Extension des limites d’image : l’IA générative utilise le contexte de l’image pour l’étendre et afficher ce qui est susceptible d’apparaître au-delà des limites de la scène représentée.
Animation
Étant donné que chaque image générée comporte une part de hasard, la création d’une série d’images légèrement différentes constitue un défi à part entière pour l’IA générative. Ainsi, lorsque vous visionnez une image après l’autre, les différences vous sautent aux yeux, les lignes et les formes se déplacent. Cependant, des chercheurs ont mis au point des méthodes pour réduire cet effet afin que les animations générées aient un niveau de cohérence acceptable.
Tous les cas d’utilisation susmentionnés pour les images fixes peuvent être adaptés aux animations d’une certaine manière. Par exemple, le transfert de style peut prendre une vidéo d’un skateur faisant une figure et la transformer en une vidéo de style animé. Vous pouvez également utiliser un modèle entraîné à partir d’exemples de discours pour animer les lèvres d’un personnage 3D généré.
L’IA générative offre d’énormes possibilités pour créer des images étonnantes. Dans l’unité suivante, vous découvrirez comment utiliser ses capacités de manière responsable.
Ressources