当前位置: 首页 > news >正文

上海网站建设 亿速上海网站搜索排名

上海网站建设 亿速,上海网站搜索排名,网站设计任务书,wordpress contentVideoBooth: Diffusion-based Video Generation with Image Prompts 概括 文章提出了一个视频生成模型VideoBooth#xff0c;输入一张图片和一个文本提示词#xff0c;即可输出保持图片中物体且符合文本提示词要求的视频。 方法 粗-细两阶段设计#xff1a;1#xff09;…VideoBooth: Diffusion-based Video Generation with Image Prompts 概括 文章提出了一个视频生成模型VideoBooth输入一张图片和一个文本提示词即可输出保持图片中物体且符合文本提示词要求的视频。 方法 粗-细两阶段设计1粗阶段利用CLIP图像编码器将图片视觉编码注入文本嵌入中融合后的嵌入送入cross attention层2细阶段将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。 一些困惑 多尺度的图片编码是用什么图像编码器获取的通过VAE获取潜在表征而这个多尺度其实就是潜在编码在U-Net在不同阶段的输出。 预备知识 拓展2D卷积为了处理视频数据和时序关联我们将SD模型中的2D卷积扩展为了3D卷积。应该指的是U-Net中的卷积层交叉帧注意力模块SD模型中原本的自注意力模块被修改成了交叉帧注意力模块以提高时序一致性。交叉帧模块同时处理空间和时序域因此可以提高合成帧的时序一致性。时序注意力模块处理时序域对所有帧起作用提高时序一致性。 粗粒度视觉编码 使用CLIP获取图像提示词和文本提示词的编码信息然后将文本编码中目标物体的编码替换为图像视觉编码将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的但是为了对齐图像和文本编码图像编码会经过MLP层。此外为了适配融合后的编码交叉注意力层中的K和V也被微调了。 细粒度视觉编码 这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码然后加噪送入U-Net每个阶段的U-Net输出包括最初的潜在编码对应的K-V都会和原始的K-V进行拼接初始帧的V被更新并影响后续所有的Value。 实验
http://www.w-s-a.com/news/830466/

相关文章:

  • 做网站用户充值提现郑州高端模板建站
  • 运城做网站方式方法网站改版完成
  • 上海建设网站制作东西湖建设局网站
  • 建设购物网站课程设计建设部领导干部官方网站
  • 沈阳企业制作网站北京两学一做网站
  • 郑州做营销型网站手机网站建设多少钱一个
  • 小说类网站程序外贸商城 wordpress
  • 喀什百度做网站多少钱wordpress 用户介绍
  • 专门做任务的网站手机端网站重构
  • 深圳专业设计网站公司国际网站建设经验
  • 网站产品页排名怎么做网站备案起名要求
  • 成都企业网站建设及公司ppt生活分类信息网站大全
  • 免费企业网站源码下载学服装设计需要什么条件
  • 淘宝网站开发方式深圳平面设计公司排名榜
  • 品牌网站建设收费情况登陆页面模板
  • 十大免费cms建站系统介绍科技网站欣赏
  • 自学做网站需要多久semir是什么品牌
  • 南通网站搜索引擎优化网站首页seo关键词布局
  • 东莞市国外网站建设多少钱wordpress 多媒体插件
  • c2c商城网站建设公司做水果生意去哪个网站
  • 做网站服务器有哪些电子商务网站建立
  • 网站开发的具体流程原材料价格查询网站
  • 深圳响应式网站建设深圳网站建设定制开发 超凡科技
  • 网站建设报价怎么差别那么大wordpress产品属性搭配
  • 高校网站建设情况报告范文pc建站网站
  • 做网站美工要学什么广东省建设厅网站首页
  • 深圳网站设计十年乐云seo网站建设 竞赛 方案
  • 新乡移动网站建设wordpress输出某一分类的文章
  • 花店网站开发设计的项目结构重庆网站建设培训班
  • 做网站的技术体系投资者互动平台官网