生成式人工智能:AIGC的逻辑与应用_丁磊_AZW3_MOBI_EPUB_电子书(无页码)_丁磊
内容节选
描绘图像:分辨率、清晰度、真实性与艺术性 看完了AIGC与文字“相依相伴”的精彩故事,你应该对AIGC与其他内容形式结合的表现也产生好奇了吧?最近风靡各大社交平台的“AI绘画”就是AIGC与图像相结合的内容产出形式,用户们也都积极尝试AI绘画,利用它去实现自己天马行空的想法,迸射出了更多的灵感和火花。 2022年8月,美国科罗拉多州举办了一场新兴数字艺术家竞赛,众多专业作家都提交了自己的作品,而其中有一幅格外引人注目,这就是杰森·艾伦提交的一幅AIGC绘画作品,名为《太空歌剧院》(图3-2)。这幅画还脱颖而出,获得了比赛“数字艺术/数字修饰照片”这一类目的一等奖。没有绘画基础的参赛者却得了奖,一时引发了多方热议。正是这次AIGC绘画作品获奖,才使得AI绘画走入人们的视野,开始真正火爆起来。 图3-2 《太空歌剧院》 图片来源:https://m2now.com/ai-killed-art 在AI绘画疾速发展的时间线中,有几个比较关键的代表性应用程序,你或许也对它们中的一些印象深刻。Midjourney是目前最好用的AI图像生成应用之一,图像生成速度快,功能也十分全面。许多艺术家在寻找灵感时,都会使用Midjourney生成图像。上文中提到的获奖作品《太空歌剧院》就由Midjourney生成。DALL·E2则由OpenAI推出,与前一代DALL·E相比,DALL·E2生成图像的分辨率更高、延迟更低。而Stable Diffusion一经推出就由于其强大的图像生成功能受到广大网友的喜爱。它操作简单,出图速度快。每一次使用这些应用生成图像就如开盲盒,这也使得很多用户把它们当作“游戏工具”疯狂玩耍,甚至很多AI行业的专业人士和资深人士都沉迷于AI图像生成,玩得不亦乐乎。 图像生成的突破 如今市场上的不少AI绘图工具都具备“文本到图像”模型,也就是说它能根据用户输入的自然语言描述内容,生成与该描述相匹配的图像。这种模型一般是将语言模型和图像生成模型相结合,语言模型用于把输入文本转换为潜在的内容表示,而图像生成模型会将其作为条件去生成图像。当下效果最好的“文本到图像”模型进行训练时所采用的大量图像和文本数据,往往都是从网络上抓取的。 “文本到图像”模型是从2015年开始,才得到业界的广泛重视的。它主要依托的是深度神经网络技术的飞速进步,谷歌大脑的Imagen、OpenAI的DALL·E等,都可以生成与真实照片十分相似的绘画作品。而由Stability AI推出的应用程序Stable Diffusion,则可以称为AI绘图领域的一匹“黑马”了。 在前文中我们曾提到,Diffusion模型是当下新一代图像生成的主流模型,这个模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后对这个噪声过程进行反转,以此来恢复数据。经过训练后,模型能够从随机输入中合成新的数据,实现算法创新。 以Stable Diffusion为例,用户在使用其图像生成功能时,有不同的选项可以进行设置,比如可以设置生成图像步骤的数量,还能设置随机种子,或者单次生成的图像数量(1~10之间)。用户在使用Stable Diffusion时还可以创建各种格式的图像,其图像的横版分辨率最大可达到1365×768,竖版分辨率最大可达到768×1365。来自这项应用的图像也可以被用于任何用途,包括商业目的(图3-3)。 图3-3 由Stable Diffusion生成的图像 2022年底上线的Stable Diffusion 2.0具有更强大的能力。这次的Stable Diffusion 2.0版本具有强大的“文本到图像”模型。这个模型由一种全新的文本编码器OpenCLIP训练,与之前的1.0版本相比,2.0版本在生成图像的质量上有了显著突破,清晰度也有很大提升。 DALL·E2是由OpenAI推出的AI绘画产品。利用DALL·E2,用户能够使用“文本到图像”和“文本引导的图像到图像”生成算法实现图像生成功能。如果想使用“文本引导的图像到图像”生成算法,用户可以先上传图像,DALL·E2会把用户所上传的图像作为初始图,并根据用户的提示来作图。更方便的是,它还有“编辑生成的图像”功能,通过使用“文本引导的图像到图像”生成算法,用户能够在已生成图像的基础上生成另一个图像,来对原生成图像进行扩展,或者补全有部分遮挡的图像。DALL·E2生成的图像的分辨率都是1024×1024的固定大小,也可以用于任何合法目的,包括商业目的(图3-4)。 图3-4 由DALL·E2生成的图像 Midjourney则是由Midjourney研究实验室开发,它的“文本提示作图”功能用起来也非常简单,在应用中提交提示文本,用户就能得到对应的图像,还能够创建出图像的其他变体,或者把图像的分辨率调到更高。用户也可以输入......
- 信息
- 前言
- 第一章 初识生成式人工智能
- 纵观AI产业版图
- 聚焦AIGC:内容皆可生成
- 生成式AI的核心价值
- 里程碑式的存在
- 第二章 AIGC的底层逻辑
- 生成式模型基础
- Transformer和ChatGPT模型
- Diffusion模型
- 第三章 功能分析:AIGC能生成什么内容?
- 生成文字:新闻、报告、代码都可一键生成
- 描绘图像:分辨率、清晰度、真实性与艺术性
- 音频制作:精准还原、实时合成
- 影视创作:海量场景任你选
- 互动娱乐:游戏中的生成式AI革命
- 第四章 商业落地:AIGC的产业应用与前景
- 研发设计:设计能力样样俱全
- 生产制造:“L4级别”的智能控制
- 供应链管理:库存计划可自动编程
- 市场营销:营销文案不再发愁
- 客户服务:贴心服务打动客户
- 第五章 主动还是被动?决胜AIGC
- 展望未来:AIGC是否是新一轮的技术革命?
- 智能并非万能:AIGC的优势与瓶颈
- 我们的工作机会还在吗?
- 后记
- 参考资料