上市公司网站建设方案,网络优化工程师需要学什么,互联网舆情研究中心,井冈山网站建设AI 图像生成大有来头。新发布的开源图像合成模型称为Stable Diffusion#xff0c;它允许任何拥有 PC 和像样的 GPU 的人想象出他们能想象到的几乎任何视觉现实。它几乎可以模仿任何视觉风格#xff0c;如果你给它输入一个描述性的短语#xff0c;结果就会像魔术一样出现在你…AI 图像生成大有来头。新发布的开源图像合成模型称为Stable Diffusion它允许任何拥有 PC 和像样的 GPU 的人想象出他们能想象到的几乎任何视觉现实。它几乎可以模仿任何视觉风格如果你给它输入一个描述性的短语结果就会像魔术一样出现在你的屏幕上。
一些艺术家 对这一前景感到高兴其他人对此并不满意而且整个社会似乎基本上还没有意识到通过 Twitter、Discord 和 Github 上的社区正在发生的快速发展的技术革命。可以说图像合成带来的影响与相机的发明一样大——或者可能是视觉艺术本身的创造。甚至我们的历史感也 可能受到威胁这取决于事态发展的方式。无论哪种方式Stable Diffusion 都在引领新一轮的深度学习创意工具浪潮这些工具有望彻底改变视觉媒体的创作。
深度学习图像合成的兴起
Stable Diffusion 是伦敦前对冲基金经理 Emad Mostaque 的创意他的目标是通过他的公司 Stability AI 将深度学习的新颖应用带给大众。但现代图像合成的根源可以追溯到2014 年而 Stable Diffusion 并不是今年第一个掀起波澜的图像合成模型 (ISM)。
2022 年 4 月OpenAI 发布了DALL-E 2它震惊了社交媒体因为它能够将用文字编写的场景称为“提示”转换为无数视觉风格这些视觉风格可以是梦幻般的、逼真的甚至是平凡的。有权使用封闭工具的人产生了骑在马背上的宇航员、在古埃及购买面包的泰迪熊、著名艺术家风格的新颖雕塑等等。
在 DALL-E 2 之后不久Google和Meta宣布了他们自己的文本到图像 AI 模型。MidJourney自 2022 年 3 月起作为 Discord 服务器提供并在几个月后向公众开放它对访问收费并实现类似的效果但默认情况下具有更具绘画性和说明性的质量。
然后是稳定扩散。8 月 22 日Stability AI发布了其开源图像生成模型其质量可以说与 DALL-E 2 相当。它还推出了自己的商业网站名为DreamStudio出售使用 Stable Diffusion 生成图像的计算时间。与 DALL-E 2 不同任何人都可以使用它而且由于 Stable Diffusion 代码是开源的因此项目可以在几乎没有限制的情况下构建它。
仅在过去的一周内就涌现了数十个将 Stable Diffusion 推向全新方向的项目。人们使用一种名为“img2img”的技术取得了意想不到的效果该技术“升级”了MS-DOS 游戏艺术、将 Minecraft 图形转换为逼真图形、将阿拉丁的场景转换为 3D、将童趣涂鸦转换为丰富的插图等等。图像合成可以为大众带来丰富的想法可视化能力降低进入门槛同时也加速拥抱该技术的艺术家的能力就像 Adobe Photoshop 在 1990 年代所做的那样。 稳定扩散的工作原理
从广义上讲大多数最近的 ISM 浪潮都使用了一种称为潜在扩散的技术。基本上该模型学会在纯噪声领域识别熟悉的形状然后如果这些元素与提示中的单词匹配则逐渐将这些元素聚焦。
首先训练模型的个人或小组收集带有元数据例如网络上的 alt 标签和标题的图像并形成一个大数据集。在 Stable Diffusion 的案例中Stability AI 使用了LAION-5B图像集的一个子集它基本上是互联网上 50 亿张可公开访问的图像的巨大图像抓取。最近对数据集的分析表明许多图像来自 Pinterest、DeviantArt 甚至 Getty Images 等网站。结果稳定扩散吸收了许多在世艺术家的风格其中一些人强烈反对这种做法。更多关于下面的内容。