Kennenlernen verschiedener Modelle für die Bilderstellung
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Beschreiben, welche Vorteile die Verwendung von Diffusionsmodellen gegenüber generativen kontradiktorischen Netzen hat
- Nennen gängiger generativer KI-Tools und ihrer Verwendungsmöglichkeiten
Von Text zu Bildern
Generative künstliche Intelligenz (generative KI) ist zwar eine relativ neue Technologie, aber sie hilft Menschen und Unternehmen bereits, effizienter zu arbeiten. Vielleicht haben Sie damit schon einmal Besprechungsnotizen zusammengefasst, eine erste Gliederung für ein Schreibprojekt erstellt oder Code programmiert. Diese Anwendungen von generativen KI-Tools haben alle etwas gemeinsam: Es geht dabei nur um die Erstellung von Text in der einen oder anderen Form.
Es gibt noch andere KI-Tools: Diese können Bilder von hoher Qualität, 3D-Objekte und Animationen erstellen und dabei die Leistung von großen Sprachmodellen (LLMs) nutzen. Wenn Sie generative KI also bereits für die Beschleunigung von Schreibaufgaben einsetzen, dann profitieren Sie wahrscheinlich auch davon, generative KI für die Arbeit mit Bildern und Animationen zu nutzen.
Bei diesem Badge stellen wir einige der aktuellen, sich schnell entwickelnden Möglichkeiten von generativer KI im Multimediabereich vor. Sie lernen Möglichkeiten kennen, mit denen Sie generative KI effektiv in Ihren Workflow einbinden. Außerdem befassen wir uns mit einigen der schwierigen Fragen rund um den verantwortungsvollen Einsatz von generativer KI für Bilder.
Fortschritte bei KI-Modellen
Sehen wir uns zunächst kurz an, welchen Einfluss große Sprachmodelle (LLMs) auf unsere Welt haben. Bevor LLMs so richtig durchstarteten, hatten Wissenschaftler schon jahrelang KI trainiert, um Bilder zu erzeugen. Diese Modelle unterlagen jedoch einigen signifikanten Einschränkungen.
Eine vielversprechende Art der Architektur für neuronale Netze war beispielsweise das generative kontradiktorische Netz (Generative Adversarial Network = GAN). Kurz gesagt wurden dabei zwei Netze eingerichtet, die ein Katz-und-Maus-Spiel spielen sollten. Das eine Netz sollte versuchen, realistische Bilder zu erzeugen, und das andere sollte versuchen, zwischen den erzeugten Bildern und echten Bildern zu unterscheiden. Mit der Zeit wurde das erste Netz sehr gut darin, das zweite auszutricksen.
Mit dieser Methode lassen sich sehr überzeugende Bilder von allen möglichen Motiven erzeugen, auch von Menschen. GANs brillieren jedoch in der Regel nur in der Bilderstellung zu einer Art von Motiv. Ein GAN, das gut darin ist, Bilder von Katzen zu erstellen, wäre also schlecht darin, Bilder von Mäusen zu erstellen. Es besteht auch die Möglichkeit, dass ein GAN einen "Modellkollaps" erleidet: Davon spricht man, wenn das erste Netz immer wieder dasselbe Bild erstellt, weil es weiß, dass dieses Bild das zweite Netz zuverlässig überlistet. Eine KI, die nur ein einziges Bild erzeugt, ist jedoch nicht gerade nützlich.
Was wirklich nützlich wäre, wäre ein KI-Modell, das Bilder von einer Vielzahl von Motiven erstellen kann, egal ob wir nach einer Katze, einer Maus oder einer Katze im Mauskostüm fragen.
[In DreamStudio mit KI-generiertes Bild bei stability.ai. Die Aufforderung lautete: "Handgezeichnetes Bild einer niedlichen Katze, die ein Mauskostüm trägt."
Wie das oben abgebildete, KI-generierte Bild zeigt, gibt es solche Modelle bereits! Man bezeichnet sie als Diffusionsmodelle, da die zugrunde liegende Mathematik sich auf das physikalische Phänomen der Diffusion von etwas bezieht, wie z. B. ein Farbtropfen in einem Glas Wasser. Wie bei den meisten KI-Modellen sind die zugehörigen technischen Details Thema unglaublich komplexer wissenschaftlicher Arbeiten.
Wichtig zu wissen ist, dass Diffusionsmodelle darauf trainiert sind, Verbindungen zwischen Bildern und Text herzustellen. Es ist hilfreich, dass es im Internet eine Menge Katzenbilder mit Untertiteln gibt. Bei einer ausreichenden Anzahl von Beispielen kann ein Modell den Kern von "Katze", "Maus" und "Kostüm" extrahieren. Dann bettet es diesen Kern mit Hilfe von Diffusionsprinzipien in ein generiertes Bild ein. Das ist kompliziert, liefert aber oftmals erstaunliche Ergebnisse.
Die Zahl der verfügbaren Diffusionsmodelle steigt täglich, vier der bekanntesten Modelle sind jedoch DALL-E, Imagen, Stable Diffusion und Midjourney. Diese Diffusionsmodelle unterscheiden sich in den Daten, die für das Training verwendet werden, in der Art und Weise, wie sprachliche Details eingebettet werden, und darin, wie Benutzer mit dem Modell interagieren, um die Ausgabe zu steuern. Infolgedessen unterscheiden sich auch die Ergebnisse von Tool zu Tool erheblich. Und was ein Modell heute gut macht, macht ein anderes morgen vielleicht schon besser, da die Forschung und Entwicklung immer schneller voranschreiten.
Einsatz von generativer KI für Bilder
Generative KI kann mehr als nur niedliche Katzenzeichnungen erstellen. Generative KI-Modelle werden oftmals optimiert und mit anderen Algorithmen und KI-Modellen kombiniert. Dies ermöglicht es Künstlern und Tüftlern gleichermaßen, Bilder auf vielfältige Weise zu erstellen, zu manipulieren und zu animieren. Sehen wir uns einige Beispiele an.
Text-zu-Bild
Mit generativer Text-zu-Bild-KI können Sie eine unglaubliche künstlerische Vielfalt erreichen. In unserem Beispiel haben wir uns für eine handgezeichnete Katze entschieden. Wir hätten aber auch einen hyperrealistischen Zeichenstil wählen oder die Szene als Kachelmosaik darstellen können. Wenn Sie es sich vorstellen können, können Diffusionsmodelle Ihre Vorstellung mit einigem Erfolg interpretieren.
In der nächsten Lektion erhalten Sie Tipps, wie Sie die besten Ergebnisse erzielen können. Hier jedoch zunächst der wichtigste Hinweis: Die Grenze Ihrer Vorstellungskraft ist erste Grenze dafür, was Sie erstellen können. Stöbern Sie in den Werken, die andere mit den verschiedenen Diffusionsmodellen erstellen.
Seit neuestem gibt es die Möglichkeit, die Bilderstellung inline mit der Texterstellung zu verwenden. Wenn Sie also eine Geschichte mit einigen GPT-Tools entwickeln, können diese den Kontext nutzen, um ein Bild zu erstellen. Noch besser: Wenn Sie ein weiteres Bild mit demselben Motiv benötigen, wie z. B. unsere verkleidete Katze, können diese Modelle das erste Bild als Referenz verwenden, damit die Figuren konsistent bleiben.
Text-zu-3D-Modell
Normalerweise sind die Tools zur Erstellung von 3D-Modellen sehr technisch und erfordern umfassende Fertigkeiten. Wir leben jedoch in einer Zeit, in der 3D-Modelle in mehr Bereichen als je zuvor genutzt werden – vom Handel über die Fertigung bis hin zur Unterhaltung. Generative KI kann hier helfen, einen Teil des Bedarfs zu decken. Modelle, wie etwa das für DreamFusion verwendete Modell, können erstaunliche 3D-Modelle erzeugen, zusammen mit unterstützenden Ressourcen zur Beschreibung der Farbgebung, Beleuchtung und Materialeigenschaften der Modelle.
Bild-zu-Bild
Wenn ein Bild mehr sagt als tausend Worte, dann kann man sich vorstellen, wie nützlich ein Bild als Teil der Aufforderung für ein generatives KI-Modell ist! Einige Modelle sind darauf trainiert, die Bedeutung von Bildern zu extrahieren. Dazu wird ähnliches Training wie bei der Text-zu-Bild-Erstellung verwendet. Diese bidirektionale Übersetzung ist die Grundlage für die folgenden Anwendungsfälle.
-
Stilübertragung: Beginnen Sie mit einer einfachen Skizze und einer Beschreibung der Szene und lassen Sie die generative KI dann alle Details hinzufügen. Die Ausgabe kann in einem bestimmten Kunststil erfolgen, z. B. als Renaissance-Gemälde oder Bauzeichnung. Manche Künstler wiederholen diesen Prozess mehrfach, um ein Bild zu erstellen.
-
Übermalen von Details: Stellen Sie sich vor, Sie besuchen den schiefen Turm von Pisa und machen ein tolles Foto von sich, auf dem Sie so tun, als ob Sie den Turm mit Ihrer eigenen Muskelkraft stützen. Leider sind noch 20 andere Leute im Bild, die genau das Gleiche tun. Kein Problem! Sie können sie jetzt ausschneiden und die KI die Lücken mit realistischem Gras und Himmel füllen lassen, um ein tadelloses Foto zu erhalten.
-
Hinzufügen von Details: Wie würde ein Panther mit einem Partyhut aussehen? Man kann dies entweder unter Lebensgefahr herausfinden oder die viel sicherere Methode wählen und generative KI verwenden. Mit Tools werden bestimmte Positionen für Objekte in einer Szene identifiziert, und wie durch Zauberei erscheinen sie, als seien sie schon immer da gewesen.
-
Erweitern der Bildränder: Generative KI nutzt den Kontext des Bilds, um das Bild über seine Ränder hinaus mit Inhalten zu füllen, die dort sehr wahrscheinlich zu sehen wären.
Animation
Da jedes generierte Bild von Natur aus ein gewisses Maß an Zufälligkeit aufweist, ist die Erstellung einer Reihe geringfügig unterschiedlicher Bilder eine spezielle Herausforderung für die generative KI. Wenn Sie also ein Bild nach dem anderen abspielen, treten die Abweichungen deutlich hervor, Linien und Formen verschieben sich und schimmern. Die Wissenschaft hat jedoch Methoden entwickelt, um diesen Effekt zu verringern, so dass die erzeugten Animationen ein akzeptables Maß an Konsistenz aufweisen.
Alle bisherigen Anwendungsfälle für Standbilder lassen sich in irgendeiner Weise auf Animationen übertragen. So kann z. B. ein Video eines Skateboarders, der einen Trick ausführt, durch die Stilübertragung in ein Video im Anime-Stil umgewandelt werden. Oder man verwendet ein auf Sprachmuster trainiertes Modell, um die Lippen einer generierten 3D-Figur zu animieren.
Es gibt enorm viele Möglichkeiten, mit generativer KI beeindruckende Bilder zu erstellen. In der nächsten Lektion erfahren Sie, wie Sie die Möglichkeiten der generativen KI verantwortungsvoll einsetzen.
Ressourcen