探索图像生成模型

学习目标

完成本单元后，您将能够：

描述将扩散模型用于生成对抗网络的优势。
识别流行的生成式 AI 工具并介绍它们的用法。

从文字到图像

虽然生成式人工智能 (Gen AI) 是一项相对较新的技术，但它已经在帮助人们和组织更高效的工作。也许您已经开始用它来总结会议笔记，完成了写作项目的第一遍大纲，或者创建了一些代码。生成式 AI 工具的这些应用都有一些共同点：它们都是专注于以某种形式创建文本。

还有另一种 Gen AI 工具，可以创建高品质图像、3D 对象和动画，这些都是利用大语言模型 (LLM) 实现的。所以，如果您已经开始用 Gen AI 帮您完成写作任务，那么您很可能从使用 Gen AI，通过图像和动画来增强内容中获益。

在此徽章中，您将了解多媒体时代生成式 AI 的一些当下的、快速改进的功能。您将发现将 Gen AI 有效融入到您的工作流中的多种方式。您还将反思围绕负责任地使用 AI 创作图像的挑战性问题。

此模块引用了一些概念，例如 AI 模型训练/机器学习、大语言模型和数据质量/偏见。如需详细了解这些概念，请查看初步了解人工智能学习路径。

AI 模型的进展

让我们来花点时间体会一下大语言模型对这个世界的影响。在实际运用 LLM 之前，研究者们花了数年训练 AI，让 AI 生成图像。但那些模型在某些重要方面有一些限制。

例如，曾经有潜力的一种中立的网络架构就是生成对抗网络 (GAN)。简单来说，就是让两种网络玩“猫捉老鼠”的游戏。一种尝试创建现实的图像，而另一种尝试区分那些生成的图像和实际的图像。随着时间的推移，第一种网络变得非常善于戏弄第二种。

这种方法善于生成非常容易让人信服的所有种类主题的图像，包括人的图像。但是 GAN 通常在创作一种主题图像方面表现优秀。因此善于创作猫咪图像的一种 GAN 在创作老鼠图像方面可能一塌糊涂。GAN 还有可能经历“模式坍塌”：一种网络反复创建同一图像，因为这个图像总能欺骗第二个网络。只能创建一个图像的 AI 并不是很有用。

真正有用的是能够创建各种各样主题图像的 AI 模型，无论是猫咪、老鼠还是穿老鼠服装的猫咪。

穿老鼠服装的可爱猫咪手绘图像。

在 stability.ai 上使用 DreamStudio 通过 AI 生成的图像，并配有提示：“穿老鼠服装的可爱猫咪手绘图像。”

正如上面 AI 生成的图像所示，这些模型已经存在了！它们被称为扩散模型，因为其底层数学与某种物质扩散的物理现象有关，比如一杯水中的一滴染料。与大多数 AI 模型类似，技术细节是非常复杂的研究论文中的那些内容。

重要的是要知道扩散模型经过训练，将图像和文本连接起来。好在网上有很多带标题的猫咪图片。有了足够多的样本，模型可以提取“猫咪”、“老鼠”以及“服装”的本质。然后，模型通过扩散模型将这种本质嵌入到生成的图像。过程很复杂，但结果通常是令人震惊的。

可用的扩散模型逐日增加，最有名的四种分别是 DALL-E、Imagen、Stable Diffusion 和 Midjourney。每种的区别在于用于训练的数据、嵌入语言细节的方式以及为控制输出用户与之交互的方式。所以每种工具的结果也有显著不同。随着研究和开发的不断进步，一种模型现在做的好的方面，可能将来就被另一种模型超越。

将生成式 AI 用于图像

生成式 AI 能够做的可远不止制作可爱的卡通动画。通常 Gen AI 模型经过微调，并结合了其他算法和 AI 模型。这让艺术家和工匠们能够以多种方式创作、影响和动态呈现图像。让我们来看一些示例。

从文本生成图像

使用从文本生成图像的 Gen AI，您可以实现令人难以置信的艺术多样性。在我们的例子中，我们选择了一只手绘风格的猫。但我们本可以选择超现实主义，或者将场景表现为瓷砖马赛克。如果您能想象的话，扩散模型可以成功地解释您的意图。

在下一单元中您将学到关于如何获得最佳结果的小贴士，但现在请理解，您能创作出什么首先受限于您能想象出什么。浏览其他人使用这些不同的扩散模型——Midjourney、Stability AI、Imagen 和 DALL-E 创建的作品吧。

最近出现了与文本生成一同生成图像的功能。因此，当您用一些 GPT 工具开发故事时，它们可以通过上下文生成图像。甚至可以做到更好，如果您需要另一张含相同主题的图片，比如我们的服装猫，这些模型可以用第一张图片作为参考，以保持角色的一致性。

从文本生成 3D 模型

通常，创建 3D 模型的工具技术要求高，需要较高水平的技能才能掌握。但我们这个时代 3D 模型越来越常见，从商业到生产和娱乐领域。让生成式 AI 帮忙满足一些需求。像用于 DreamFusion 的类似模型可以生成令人惊叹的 3D 模型，以及描述模型颜色、布光和材料属性的资源。

从图像生成图像

如果一幅图表达了千言万语，想象一下把它作为生成式 AI 模型的一部分是多么有帮助啊！一些模型经过训练，可以用从文本生成图像的类似训练，从图片提取含义。这种双向转换是下列用例的基础。

风格转换：从一个简单的草图和对场景中发生的事情的描述开始，让 Gen AI 填充所有细节。输出可以是特定种类的艺术风格，如文艺复兴时期的绘画或建筑绘图。一些艺术家反复进行这种操作，以构建一个图像。
去除细节：想象一下您刚参观了比萨斜塔，拍了一张用自己的力量撑住斜塔的照片。然而，照片里有另外 20 个人都在做同样的事情。不用担心，现在您可以把他们都去掉，让 AI 用真实的草和天空填充间隙，得到一张崭新的照片。
绘制细节：如果让黑豹戴上派对帽会是什么样子呢？有一种危险的发现方法，或者使用生成式 AI 的更安全的方法。工具被用来识别某一场景中物品的特定位置，就像魔术一样，它们看起来就像一直在那里。
扩大图片边界：生成式 AI 用图片上下文继续绘制场景边界外可能显示的内容。

动画

因为每一张生成的图像都有一定的随机性，所以创建一系列略有不同的图像对生成 AI 来说是一项挑战。因此，当您播放一张又一张图像时，变化会跳出来，线条和形状会移动和闪烁。但研究人员已经开发出了减少这种影响的方法，因此生成的动画具有可接受的一致性。

以前所有用于静态图像的用例都可以以某种方式转换为动画。例如，风格转换可以拍摄一个滑板运动员表演技巧的视频，并将其转化为动漫风格的视频。或者使用根据语音模式训练的模型来为生成的 3D 角色的嘴唇设置动画。

使用生成式 AI 创造令人惊叹的图像有巨大的可能性。在下一单元中，您将学习如何负责任地利用生成式 AI 的能力。

资源

Trailhead：初步了解人工智能

时间估计

主题

需要帮助？