资阳建设机械网站,专业的聊城做网站费用,环保局 网站建设,wordpress0基础#x1f60e; 作者介绍#xff1a;我是程序员洲洲#xff0c;一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公粽号#xff1a;洲与AI。 #x1f388; 本文专栏#xff1a;本文收录… 作者介绍我是程序员洲洲一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公粽号洲与AI。 本文专栏本文收录于洲洲的【AIGPT前沿科技】系列专栏欢迎大家关注本专栏~专栏一键跳转 同时欢迎大家关注其他专栏我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。 同时洲洲已经建立了程序员技术交流群如果您感兴趣可以私信我加入我的社群~社群中将不定时分享各类福利 随时欢迎您跟我沟通一起交流一起成长、进步点此即可获得联系方式~ 导读
大家好我是小洲。
昨天OpenAI推出的文生成视频大模型Sora可谓是在科技媒体头条一时风头无两大放异彩。其惊人的逼真细节、流畅的视频动作以及准确的文本语义还原令人惊叹。许多媒体、科技专家和电影导演纷纷指出Sora的亮相不仅使一直在该领域深耕的Pika、Stability等知名企业相形见绌甚至可能对整个影视行业产生颠覆性影响。
Sora主要令人惊艳的点在于可以生成60s的高清视频一镜到底并且多个场景镜头无缝衔接视频主体不变各个物体间的物理位置关系不变。
今天OpenAI发布了Sora的技术报告我们来仔细研读一下Sora的技术原理~ (Sora官方技术报告链接https://openai.com/research/video-generation-models-as-world-simulators) 报告总览
首先我们来梳理一下Sora报告的技术要点
模型训练
1、Sora的架构是扩散模型Diffusion Model和Transformer.
在最开始的文生视频领域常用的有RNN\GAN\DM模型。Sora属于扩散模型。
扩散模型展现出卓越的优势相较于GAN而言它在生成多样性和训练稳定性方面更为出色。最为关键的是在图片和视频生成领域扩散模型呈现出更为广阔的发展空间。相较于GAN模型本质上是机器对人的模仿扩散模型更像是机器真正学会了“成为一个人”。这不仅突显了其在生成领域的前沿地位还彰显了其在理解和模拟人类特质方面的独特能力。因此扩散模型不仅在技术上取得了显著的进步更为全面地超越了传统的生成对抗网络。
说得直白一点GAN模型就像是一位学徒他一边不停地对着样本作画一边接受着老师的不断评分以进行提升“训练”生成器和判别器的相互博弈。最终画家可能取得了不小的进步画出逼真的作品但整个过程难以精确控制有时候会走火入魔输出一些难以理解的内容。而且他的进步主要是在不断地模仿先前的作品缺乏创造性。
相比之下扩散模型则更像是一位勤奋且聪明的创作者。他不仅仅是机械地仿作而是在学习大量作品的同时深刻理解图像内涵及图像之间的关系。他具备对图像上的“美”和某种“风格”进行思考的能力从而更有前途。不同于GAN的局限性扩散模型在创造性方面表现更出色为未来的发展提供了更广阔的可能性。
2、Sora模型在训练时是先用预训练模型把各种不同的视频源文件编码统一都转化为Patch表示接着把时空要素作为Transformer的token进行训练。
大型语言模型之所以在之前取得成功关键在于Token的出色应用。Token这一概念可被视作一种巧妙的工具它成功地将代码、数学以及各种自然语言有机地统一在一起为进行大规模训练提供了高效而便捷的手段。这种统一不仅简化了模型的训练过程还促使了不同领域知识的有效交融为模型的全面学习提供了有力支持。
在视频模型Sora的训练中OpenAI巧妙地将Token的思想延伸并引入了“Patch”概念。这里“Patch”可以被译为图块这一概念的引入进一步加强了对视频信息的处理能力。通过将Token理解为词元我们可以将“Patch”视为对图像信息进行分块处理的有效手段为Sora在处理视频生成时提供了更灵活和精准的工具。
需要强调的是在大型语言模型的成功背后Token并非孤立存在。其背后还有Transformer架构的协同作用这个架构为模型提供了更为智能和高效的学习方式。Transformer架构与Token相辅相成相互配合使得模型在各个层面都能更好地理解和处理复杂信息。
因此Sora作为一种视频生成扩散模型与主流采用U-Net架构的视频生成扩散模型不同选择采用了Transformer架构。这种创新设计不仅使Sora在视频生成领域具备独特的优势还为模型在理解和处理更丰富、更复杂信息方面开辟了新的可能性。这样的前瞻性设计使得Sora在实际应用中表现抢眼并为视频生成技术的进一步发展贡献了重要的经验和启示。
特点
1、自然语言的理解能力大大增强可以贴切的理解prompt提示词。
2、可以将视频内容主体的特征保持不变。
3、可以生成长达60s的高清一镜到底视频之前所有的文生视频大模型几乎都只能生成10s以内的视频内容。
4、可以实现视频补全、视频延伸等等。
5、已经对真实的物理世界有了认知可以自然理解一些简单的物理世界原理并做出视频。
Sora报告
(1) 将视觉数据转化为补丁
借鉴于大型语言模型的成功经验这些模型通过海量的互联网数据训练具备出色的通用能力。LLM范式的成功得益于其巧妙运用标记这些标记巧妙地统一了文本、代码、数学以及各种自然语言模式。在研究中OpenAI思考了视觉数据生成模型如何能够继承并运用这些优势。相较于LLM拥有文本标记Sora则通过引入视觉补丁实现其目标。过去的研究已经证明补丁在表示视觉数据模型时是一种有效的方式。发现表明补丁是一种高度可扩展和有效的表示方式适用于在不同类型的视频和图像上进行生成模型的训练。在更高层面上首先将视频压缩至较低维的潜在空间然后通过将表示分解为时空补丁的方式成功地将视频转换为补丁形式。这一方法为训练生成模型提供了更灵活、更有效的手段。 (2) 视频压缩网络
通过训练网络成功实现了对视觉数据维度的降低。这个网络以原始视频为输入输出在时间和空间上经过压缩的潜在表示。Sora在这一压缩的潜在空间中接受训练进而生成出新的视频。为了完善这一过程进行了解码器模型的训练它能够将生成的潜在表示映射回像素空间为最终的视觉输出提供了高质量的还原。
这个创新性的方法不仅能够在降低数据维度的同时保持信息的关键性还为视觉数据处理领域带来了更为高效和灵活的解决方案。
(3) 时空潜补丁
这个“潜”可以理解成“降维”或者“压缩”意在用更少的信息去表达信息的本质。
给定一个压缩的输入视频提取一系列时空补丁充当变压器令牌。该方案也适用于图像因为图像只是具有单帧的视频。基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。
(4) 改进的框架和构图
基于原始视频的长宽比进行训练有助于改善构图和取景效果。特别将Sora与一种常见的训练生成模型方式进行比较即将所有训练视频裁剪为正方形的模型版本。在方形裁剪的模型训练中有时会产生仅显示部分主体的视频的情况。相比之下Sora模型的视频在取景效果上表现更佳通过保留原始长宽比成功改进了视频的构图使其更加完整和有吸引力。
(5) 语言理解
为了训练文本到视频生成系统采用具备相应文本字幕的大量视频。引入了DALL·E 3中的重新字幕技术首先培训了一个高度描述性的字幕生成器模型并将其用于为训练集中的所有视频生成文本字幕。这一过程的关键是通过对高度描述性视频字幕的训练提高文本的保真度从而提升整体视频质量。
与DALL·E 3相似巧妙地利用GPT将短小的用户提示转换为更为详细的字幕然后将其发送到视频模型。这一策略使得Sora能够生成高质量视频准确地符合用户的提示为用户提供了更加个性化和令人满意的视觉体验。
(6) 通过图像和视频进行提示
Sora 也可以通过其他输入进行提示例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。
总结
Hello各位看官老爷们好洲洲已经建立了CSDN技术交流群如果你很感兴趣可以私信我加入我的社群。
社群中不定时会有很多活动例如每周都会包邮免费送一些技术书籍及精美礼品、学习资料分享、大厂面经分享、技术讨论、行业大佬创业杂谈等等。
社群方向很多相关领域有Web全栈前后端、人工智能、机器学习、自媒体变现、前沿科技文章分享、论文精读等等。
不管你是多新手的小白都欢迎你加入社群中讨论、聊天、分享加速助力你成为下一个技术大佬也随时欢迎您跟我沟通一起交流一起成长。变现、进步、技术、资料、项目、你想要的这里都会有
网络的风口只会越来越大风浪越大鱼越贵欢迎您加入社群~一个人可以或许可以走的很快但一群人将走的更远
关注我的公众号与CSDN同ID程序员洲洲可以获得一份Java 10万字面试宝典及相关资料~
想都是问题做都是答案行动起来吧欢迎评论区or后台与我沟通交流也欢迎您点击下方的链接直接加入到我的交流社群~ 跳转链接社区~