微网站建设教程视频,.net电子商城网站开发设计,如何开发一个app软件,网站页面设计工具VideoBooth: Diffusion-based Video Generation with Image Prompts 概括
文章提出了一个视频生成模型VideoBooth#xff0c;输入一张图片和一个文本提示词#xff0c;即可输出保持图片中物体且符合文本提示词要求的视频。
方法
粗-细两阶段设计#xff1a;1#xff09;…VideoBooth: Diffusion-based Video Generation with Image Prompts 概括
文章提出了一个视频生成模型VideoBooth输入一张图片和一个文本提示词即可输出保持图片中物体且符合文本提示词要求的视频。
方法
粗-细两阶段设计1粗阶段利用CLIP图像编码器将图片视觉编码注入文本嵌入中融合后的嵌入送入cross attention层2细阶段将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。 一些困惑
多尺度的图片编码是用什么图像编码器获取的通过VAE获取潜在表征而这个多尺度其实就是潜在编码在U-Net在不同阶段的输出。
预备知识
拓展2D卷积为了处理视频数据和时序关联我们将SD模型中的2D卷积扩展为了3D卷积。应该指的是U-Net中的卷积层交叉帧注意力模块SD模型中原本的自注意力模块被修改成了交叉帧注意力模块以提高时序一致性。交叉帧模块同时处理空间和时序域因此可以提高合成帧的时序一致性。时序注意力模块处理时序域对所有帧起作用提高时序一致性。
粗粒度视觉编码
使用CLIP获取图像提示词和文本提示词的编码信息然后将文本编码中目标物体的编码替换为图像视觉编码将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的但是为了对齐图像和文本编码图像编码会经过MLP层。此外为了适配融合后的编码交叉注意力层中的K和V也被微调了。
细粒度视觉编码
这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码然后加噪送入U-Net每个阶段的U-Net输出包括最初的潜在编码对应的K-V都会和原始的K-V进行拼接初始帧的V被更新并影响后续所有的Value。
实验