画像生成モデルの詳細を知る

学習の目的

この単元を完了すると、次のことができるようになります。

敵対的生成ネットワークではなく、拡散モデルを使用するメリットについて説明する。
一般的な生成 AI ツールを挙げ、その用途を説明する。

言葉から画像への移行

生成人工知能 (生成 AI) は比較的新しいテクノロジーながら、すでに人々や組織の仕事の効率化に貢献しています。皆さんもミーティングのメモの要約や、執筆プロジェクトの要旨の作成、コードの記述などに使用したことがあるかもしれません。生成 AI ツールのこうした用途には共通点があります。すべて何らかの形のテキストのみの生成を目的としていることです。

生成 AI ツールには、高質の画像、3D の物体、アニメーションを作成できるもう 1 つの分野があり、このすべてで大規模言語モデルが使用されます。ですから、生成 AI を使って執筆タスクを効率的に進めながら、生成 AI を使用した画像やアニメーションでその文章を補足するということが可能になります。

このバッジでは、マルチメディアの分野で急速に進歩している最新の生成 AI の代表的な機能について学習します。各自のワークフローに生成 AI を効率的に組み込む方法を理解できます。また、画像制作における生成 AI の責任ある使用をめぐる問題点についても検討します。

このモジュールでは、AI モデルのトレーニング/機械学習、大規模言語モデル、データ品質/バイアスなどの概念に言及します。復習が必要な場合は、「人工知能入門」トレイルを参照してください。

AI モデルの進歩

先に進む前に、大規模言語モデルによってこの世界がどのような影響を受けてきたか考えてみましょう。LLM の実用化に先駆けて、研究者らは何年もかけて AI に画像を生成させるトレーニングを行ってきました。けれども、こうしたモデルにはいくつか重要な点で制約がありました。

たとえば、ニューラルネットワークアーキテクチャの一種である敵対的生成ネットワーク (GAN) が有望視されていました。簡単に説明すると、GAN では、2 つのネットワークを互いに競わせるように仕向けます。一方は現実的な画像の生成に取り組み、もう一方は生成された画像と現実の画像を区別しようとします。次第に 1 つ目のネットワークの生成機能が上達し、2 つ目のネットワークが騙されるようになります。

この手法では、人間をはじめとするあらゆる題材のもっともらしい画像を生成することができます。ただし、GAN は通常、ある種の題材の画像の生成のみを得意とします。つまり、ある GAN は猫の画像の生成に長けているが、ネズミの画像はひどい出来ということがあります。また、1 つ目のネットワークがある画像で 2 つ目のネットワークを騙せることを認識すると、その画像を何度も作成して、GAN に「モード崩壊」が生じる可能性があります。1 つの画像しか作成しない AI は有用とは言えません。

実際のところ、有益な AI モデルとは、「猫」「ネズミ」「ネズミのコスチュームを着た猫」などの指示に応じて、多様な題材の画像を作成できるものです。

ネズミのコスチュームを着た猫の可愛らしい手描きの画像

stability.ai の DreamStudio で、「ネズミのコスチュームを着た猫の可愛らしい手描きの画像」というプロンプトに従って AI が生成した画像

上記の AI 生成画像からおわかりのとおり、こうしたモデルはすでに存在し、拡散モデルと呼ばれています。この名前は、基盤となる数学理論が、コップの水に 1 滴の染料を垂らしたときに広がる物理現象に関連していることに由来します。大半の AI モデルと同様に、この技術的な詳細は、極めて複雑な研究論文で論じられるレベルの内容です。

ここで認識すべき重要な点は、拡散モデルでは画像とテキストが結びつけられるようにトレーニングされるということです。インターネット上にキャプション付きの猫の写真がたくさんあることが、このトレーニングに役立っています。十分なサンプルがあれば、モデルが「猫」「ネズミ」「コスチューム」の要素を抽出できます。取り出した要素を、拡散の原理に従って生成する画像に当てはめていきます。複雑な過程ですが、驚くべき結果になることが少なくありません。

利用可能な拡散モデルの数が日ごとに増えていますが、特に知られているのは、DALL-E、Imagen、Stable Diffusion、Midjourney の 4 種です。それぞれトレーニングに使用するデータ、言語の詳細を組み込む方法、ユーザーが出力をコントロールするための操作方法などが異なります。そのため、ツールによって結果が大きく異なります。今後研究開発が加速すれば、今日はあるモデルでうまくいったことが、明日は別のモデルのほうが良い結果になるということがあるかもしれません。

画像生成 AI の用途

生成 AI は、可愛い猫のアニメを描くこと以外にもさまざまなことが可能です。生成 AI モデルの多くはファインチューニングされ、他のアルゴリズムや AI モデルと組み合わされています。そのため、アーチストもアートの利用者も、さまざまな方法で画像を作成、操作、アニメ化することができます。この代表的な手法をご紹介します。

Text-to-Image (テキストから画像)

Text-to-Image 生成 AI を使用すると、驚くほど多様なアートを表現できます。この単元の例では手描き風の猫を選択しましたが、超写実的な描写やタイルのモザイク風に仕上げることもできました。どのような画像にしたいか想像できれば、拡散モデルがその意図を汲み取ってそこそこ表現することができます。

次の単元で、最適な結果を得るためのヒントをご紹介しますが、ここではあなたの想像力が及ぶ限りのものを作成できるということを覚えておいてください。ほかの人々がさまざまな拡散モデル (Midjourney、Stability AI、Imagen、DALL-E) を使用して、どのような画像を作成しているかご覧ください。

最近は、生成するテキストの行間に画像を埋め込む機能も出現しています。つまり、一部の GPT ツールでは、ストーリーを書き進めながら、そのコンテキストに応じた画像を生成できるということです。こうしたモデルの更にすごい点は、ユーザーがコスチューム姿の猫といった同じ題材の別の画像を必要としたときに、1 つ目の画像を参照し、一貫性のあるキャラクターを生成できることです。

Text-to-3D (テキストから 3D) モデル

概して、3D モデルを作成するツールは極めて専門的で、使いこなすには高度なスキルを要します。それでも昨今では、コマース、製造、エンターテイメントなど、これまで以上に多くの場面で 3D モデルが見られるようになっています。こうした 3D モデルの需要に生成 AI で対応することができます。DreamFusion で使用されているようなモデルでは、画期的な 3D モデルとともに、そのモデルの採色、照度、材質などのプロパティを説明する補足的なリソースも生成できます。

Image-to-Image (画面から画面)

「百聞は一見に如かず」と言いますが、生成 AI モデルのプロンプトに画像を追加できたらどれほど便利か想像してみてください! モデルの中には、Text-to-Image 生成の場合と同様のトレーニングを使用して、写真から意味を抽出するようトレーニングされるものがあります。次のユースケースでは、こうした双方向翻訳が基盤になっています。

画風変換: 簡単なスケッチとその場面で何が起こっているかの説明を用意して、生成 AI に詳細を描画させます。ルネッサンス期の絵画や建築図面など、特定の種類の画風で出力することができます。アーチストの中には、この処理を繰り返して画像を仕上げていく人もいます。
細部の塗りつぶし: たとえば、ピサの斜塔を見に行き、渾身の力で塔を支えているように見える写真を撮ることができたとします。残念ながら、同じことをしている他の 20 人も写り込んでいます。けれども心配はいりません。他の人々を切り取れば、AI がリアルな草原や青空で隙間を埋め、オリジナルの写真のように見せてくれます。
細部の描き足し: 豹にパーティハットをかぶせたらどうなるでしょうか? 危険を覚悟で試してみることもできますが、生成 AI を使えばはるかに安全に確認できます。アイテムをある場面の具体的な場所に配置するように指定すれば、魔法の如く、そのアイテムが初めからそこにあったかのように見せてくれます。
写真の境界拡張: 生成 AI が写真のコンテキストからその場面の外部にあると思われるものを想定して、写真を拡張します。

アニメーション

生成されるどの画像にもある程度のランダム性が内在するため、生成 AI にとって少しずつ異なる一連の画像を作成するのは容易いことではありません。少しずつ異なる画像を連続的に再生すると、変化した部分が飛び出し、線や形状が揺らめいているように見えます。そこで研究者らは、こうした揺らめきを抑え、生成されたアニメーションに許容できるレベルの一貫性が維持される方法を開発しました。

前述の静止画のユースケースはすべて、何らかの形でアニメーションに適用することができます。たとえば、画風転換でトリックを決めているスケートボーダーの動画を選べば、アニメ風の動画に変換できます。また、発話パターンでトレーニングしたモデルを使用して、生成された 3D キャラクターの口を動かすこともできます。

生成 AI はインパクトのある画像を作成する多大な潜在性を秘めています。次の単元では、生成 AI の機能の責任ある利用法について学習します。

リソース

Trailhead: 人工知能入門

予想時間

トピック

ヘルプをお探しですか?