AL123 人文社科会员免费专区文学 2023-06-15

生成式人工智能：AIGC的逻辑与应用_丁磊_AZW3_MOBI_EPUB_电子书（无页码）_丁磊

内容节选

描绘图像：分辨率、清晰度、真实性与艺术性看完了AIGC与文字“相依相伴”的精彩故事，你应该对AIGC与其他内容形式结合的表现也产生好奇了吧？最近风靡各大社交平台的“AI绘画”就是AIGC与图像相结合的内容产出形式，用户们也都积极尝试AI绘画，利用它去实现自己天马行空的想法，迸射出了更多的灵感和火花。 2022年8月，美国科罗拉多州举办了一场新兴数字艺术家竞赛，众多专业作家都提交了自己的作品，而其中有一幅格外引人注目，这就是杰森·艾伦提交的一幅AIGC绘画作品，名为《太空歌剧院》（图3-2）。这幅画还脱颖而出，获得了比赛“数字艺术/数字修饰照片”这一类目的一等奖。没有绘画基础的参赛者却得了奖，一时引发了多方热议。正是这次AIGC绘画作品获奖，才使得AI绘画走入人们的视野，开始真正火爆起来。图3-2 《太空歌剧院》图片来源：https://m2now.com/ai-killed-art 在AI绘画疾速发展的时间线中，有几个比较关键的代表性应用程序，你或许也对它们中的一些印象深刻。Midjourney是目前最好用的AI图像生成应用之一，图像生成速度快，功能也十分全面。许多艺术家在寻找灵感时，都会使用Midjourney生成图像。上文中提到的获奖作品《太空歌剧院》就由Midjourney生成。DALL·E2则由OpenAI推出，与前一代DALL·E相比，DALL·E2生成图像的分辨率更高、延迟更低。而Stable Diffusion一经推出就由于其强大的图像生成功能受到广大网友的喜爱。它操作简单，出图速度快。每一次使用这些应用生成图像就如开盲盒，这也使得很多用户把它们当作“游戏工具”疯狂玩耍，甚至很多AI行业的专业人士和资深人士都沉迷于AI图像生成，玩得不亦乐乎。图像生成的突破如今市场上的不少AI绘图工具都具备“文本到图像”模型，也就是说它能根据用户输入的自然语言描述内容，生成与该描述相匹配的图像。这种模型一般是将语言模型和图像生成模型相结合，语言模型用于把输入文本转换为潜在的内容表示，而图像生成模型会将其作为条件去生成图像。当下效果最好的“文本到图像”模型进行训练时所采用的大量图像和文本数据，往往都是从网络上抓取的。 “文本到图像”模型是从2015年开始，才得到业界的广泛重视的。它主要依托的是深度神经网络技术的飞速进步，谷歌大脑的Imagen、OpenAI的DALL·E等，都可以生成与真实照片十分相似的绘画作品。而由Stability AI推出的应用程序Stable Diffusion，则可以称为AI绘图领域的一匹“黑马”了。在前文中我们曾提到，Diffusion模型是当下新一代图像生成的主流模型，这个模型的工作原理是通过连续添加高斯噪声来破坏训练数据，然后对这个噪声过程进行反转，以此来恢复数据。经过训练后，模型能够从随机输入中合成新的数据，实现算法创新。以Stable Diffusion为例，用户在使用其图像生成功能时，有不同的选项可以进行设置，比如可以设置生成图像步骤的数量，还能设置随机种子，或者单次生成的图像数量（1~10之间）。用户在使用Stable Diffusion时还可以创建各种格式的图像，其图像的横版分辨率最大可达到1365×768，竖版分辨率最大可达到768×1365。来自这项应用的图像也可以被用于任何用途，包括商业目的（图3-3）。图3-3 由Stable Diffusion生成的图像 2022年底上线的Stable Diffusion 2.0具有更强大的能力。这次的Stable Diffusion 2.0版本具有强大的“文本到图像”模型。这个模型由一种全新的文本编码器OpenCLIP训练，与之前的1.0版本相比，2.0版本在生成图像的质量上有了显著突破，清晰度也有很大提升。 DALL·E2是由OpenAI推出的AI绘画产品。利用DALL·E2，用户能够使用“文本到图像”和“文本引导的图像到图像”生成算法实现图像生成功能。如果想使用“文本引导的图像到图像”生成算法，用户可以先上传图像，DALL·E2会把用户所上传的图像作为初始图，并根据用户的提示来作图。更方便的是，它还有“编辑生成的图像”功能，通过使用“文本引导的图像到图像”生成算法，用户能够在已生成图像的基础上生成另一个图像，来对原生成图像进行扩展，或者补全有部分遮挡的图像。DALL·E2生成的图像的分辨率都是1024×1024的固定大小，也可以用于任何合法目的，包括商业目的（图3-4）。图3-4 由DALL·E2生成的图像 Midjourney则是由Midjourney研究实验室开发，它的“文本提示作图”功能用起来也非常简单，在应用中提交提示文本，用户就能得到对应的图像，还能够创建出图像的其他变体，或者把图像的分辨率调到更高。用户也可以输入......