探索图像生成模型
学习目标
完成本单元后,您将能够:
- 描述将扩散模型用于生成对抗网络的优势。
- 识别流行的生成式 AI 工具并介绍它们的用法。
从文字到图像
虽然生成式人工智能 (Gen AI) 是一项相对较新的技术,但它已经在帮助人们和组织更高效的工作。也许您已经开始用它来总结会议笔记,完成了写作项目的第一遍大纲,或者创建了一些代码。生成式 AI 工具的这些应用都有一些共同点:它们都是专注于以某种形式创建文本。
还有另一种 Gen AI 工具,可以创建高品质图像、3D 对象和动画,这些都是利用大语言模型 (LLM) 实现的。所以,如果您已经开始用 Gen AI 帮您完成写作任务,那么您很可能从使用 Gen AI,通过图像和动画来增强内容中获益。
在此徽章中,您将了解多媒体时代生成式 AI 的一些当下的、快速改进的功能。您将发现将 Gen AI 有效融入到您的工作流中的多种方式。您还将反思围绕负责任地使用 AI 创作图像的挑战性问题。
AI 模型的进展
让我们来花点时间体会一下大语言模型对这个世界的影响。在实际运用 LLM 之前,研究者们花了数年训练 AI,让 AI 生成图像。但那些模型在某些重要方面有一些限制。
例如,曾经有潜力的一种中立的网络架构就是生成对抗网络 (GAN)。简单来说,就是让两种网络玩“猫捉老鼠”的游戏。一种尝试创建现实的图像,而另一种尝试区分那些生成的图像和实际的图像。随着时间的推移,第一种网络变得非常善于戏弄第二种。
这种方法善于生成非常容易让人信服的所有种类主题的图像,包括人的图像。但是 GAN 通常在创作一种主题图像方面表现优秀。因此善于创作猫咪图像的一种 GAN 在创作老鼠图像方面可能一塌糊涂。GAN 还有可能经历“模式坍塌”:一种网络反复创建同一图像,因为这个图像总能欺骗第二个网络。只能创建一个图像的 AI 并不是很有用。
真正有用的是能够创建各种各样主题图像的 AI 模型,无论是猫咪、老鼠还是穿老鼠服装的猫咪。
在 stability.ai 上使用 DreamStudio 通过 AI 生成的图像,并配有提示:“穿老鼠服装的可爱猫咪手绘图像。”
正如上面 AI 生成的图像所示,这些模型已经存在了!它们被称为扩散模型,因为其底层数学与某种物质扩散的物理现象有关,比如一杯水中的一滴染料。与大多数 AI 模型类似,技术细节是非常复杂的研究论文中的那些内容。
重要的是要知道扩散模型经过训练,将图像和文本连接起来。好在网上有很多带标题的猫咪图片。有了足够多的样本,模型可以提取“猫咪”、“老鼠”以及“服装”的本质。然后,模型通过扩散模型将这种本质嵌入到生成的图像。过程很复杂,但结果通常是令人震惊的。
可用的扩散模型逐日增加,最有名的四种分别是 DALL-E、Imagen、Stable Diffusion 和 Midjourney。每种的区别在于用于训练的数据、嵌入语言细节的方式以及为控制输出用户与之交互的方式。所以每种工具的结果也有显著不同。随着研究和开发的不断进步,一种模型现在做的好的方面,可能将来就被另一种模型超越。
将生成式 AI 用于图像
生成式 AI 能够做的可远不止制作可爱的卡通动画。通常 Gen AI 模型经过微调,并结合了其他算法和 AI 模型。这让艺术家和工匠们能够以多种方式创作、影响和动态呈现图像。让我们来看一些示例。
从文本生成图像
使用从文本生成图像的 Gen AI,您可以实现令人难以置信的艺术多样性。在我们的例子中,我们选择了一只手绘风格的猫。但我们本可以选择超现实主义,或者将场景表现为瓷砖马赛克。如果您能想象的话,扩散模型可以成功地解释您的意图。
在下一单元中您将学到关于如何获得最佳结果的小贴士,但现在请理解,您能创作出什么首先受限于您能想象出什么。浏览一下其他人通过扩散模型创作了什么吧。
最近出现了与文本生成一同生成图像的功能。因此,当您用一些 GPT 工具开发故事时,它们可以通过上下文生成图像。甚至可以做到更好,如果您需要另一张含相同主题的图片,比如我们的服装猫,这些模型可以用第一张图片作为参考,以保持角色的一致性。
从文本生成 3D 模型
通常,创建 3D 模型的工具技术要求高,需要较高水平的技能才能掌握。但我们这个时代 3D 模型越来越常见,从商业到生产和娱乐领域。让生成式 AI 帮忙满足一些需求。像用于 DreamFusion 的类似模型可以生成令人惊叹的 3D 模型,以及描述模型颜色、布光和材料属性的资源。
从图像生成图像
如果一幅图表达了千言万语,想象一下把它作为生成式 AI 模型的一部分是多么有帮助啊!一些模型经过训练,可以用从文本生成图像的类似训练,从图片提取含义。这种双向转换是下列用例的基础。
-
风格转换:从一个简单的草图和对场景中发生的事情的描述开始,让 Gen AI 填充所有细节。输出可以是特定种类的艺术风格,如文艺复兴时期的绘画或建筑绘图。一些艺术家反复进行这种操作,以构建一个图像。
-
去除细节:想象一下您刚参观了比萨斜塔,拍了一张用自己的力量撑住斜塔的照片。然而,照片里有另外 20 个人都在做同样的事情。不用担心,现在您可以把他们都去掉,让 AI 用真实的草和天空填充间隙,得到一张崭新的照片。
-
绘制细节:如果让黑豹戴上派对帽会是什么样子呢?有一种危险的发现方法,或者使用生成式 AI 的更安全的方法。工具被用来识别某一场景中物品的特定位置,就像魔术一样,它们看起来就像一直在那里。
-
扩大图片边界:生成式 AI 用图片上下文继续绘制场景边界外可能显示的内容。
动画
因为每一张生成的图像都有一定的随机性,所以创建一系列略有不同的图像对生成 AI 来说是一项挑战。因此,当您播放一张又一张图像时,变化会跳出来,线条和形状会移动和闪烁。但研究人员已经开发出了减少这种影响的方法,因此生成的动画具有可接受的一致性。
以前所有用于静态图像的用例都可以以某种方式转换为动画。例如,风格转换可以拍摄一个滑板运动员表演技巧的视频,并将其转化为动漫风格的视频。或者使用根据语音模式训练的模型来为生成的 3D 角色的嘴唇设置动画。
使用生成式 AI 创造令人惊叹的图像有巨大的可能性。在下一单元中,您将学习如何负责任地利用生成式 AI 的能力。
资源