当前位置: 首页 > news >正文

无版权图片网站wordpress菜单栏竖排

无版权图片网站,wordpress菜单栏竖排,滨州网站开发,网站总体规划设计说明视觉语言模型在各种多模态任务上取得了显著的成功#xff0c;但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而#xff0c;LLM对视觉…视觉语言模型在各种多模态任务上取得了显著的成功但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而LLM对视觉令牌的理解范式在压缩学习过程中没有充分利用。本文提出了VoCo-LLaMA这是第一种使用LLM压缩视觉视觉令牌的方法。通过在视觉指令调整过程中引入视觉压缩令牌并利用注意力蒸馏本文方法蒸馏了LLM如何将LLM视觉令牌理解到它们对VoCo令牌的处理。 VoCo-LLaMA 本文VoCo-LLaMA算法引入特殊的视觉压缩Vision CompressionVoCo令牌以利用LLM压缩和理解图像压缩表示的能力。大语言模型输入序列由连接视觉令牌特殊的VoCo令牌和文本令牌形成。 X ( V , V o C o , T ) ( V 0 , … , V n , V o C o , T 0 , … , T m ) \mathcal{X}(\mathcal{V},VoCo,\mathcal{T})(V_{0},\ldots,V_{n},VoCo,T_{0},\ldots,T_{m}) X(V,VoCo,T)(V0​,…,Vn​,VoCo,T0​,…,Tm​) 在训练阶段使用两阶段注意力机制。最初本文对文本令牌施加一个约束明确阻止它们关注原始视觉令牌同时强迫它们只关注压缩和蒸馏的VoCo令牌。随后由于casual Transformer视觉令牌受到VoCo令牌的持续关注。这种刻意的设计保证了文本令牌只捕捉VoCo令牌中编码的蒸馏视觉信息而不是直接与原始视觉令牌交互实现了从视觉令牌到压缩令牌的压缩蒸馏。 VoCo-LLaMA的压缩过程可以战略性地通过调整注意力掩码优雅地实现。具体地将文本令牌和视觉令牌之间注意力权重设置为False。 M ∈ R ( m n − 1 ) × ( m n − 1 ) \mathbf{M}\in \mathbb{R}^{(mn-1)\times (mn-1)} M∈R(mn−1)×(mn−1) 为注意力掩码。定义调整后注意力掩码为 M i j { True,  if  i ∈ T and  j ∈ V o C o , False,  if  i ∈ T and  j ∈ V , True,  otherwise.  M_{i j}\left\{\begin{array}{ll} \text { True, } \text { if } i \in \mathcal{T} \text { and } j \in V o C o, \\ \text { False, } \text { if } i \in \mathcal{T} \text { and } j \in \mathcal{V}, \\ \text { True, } \text { otherwise. } \end{array}\right. Mij​⎩ ⎨ ⎧​ True,  False,  True, ​ if i∈T and j∈VoCo, if i∈T and j∈V, otherwise. ​ 值得注意的是本文对注意力掩码的修改是基于仅解码器模型如LLaVA中casual注意力掩码实现该模型被初始化为左下三角矩阵。实践中VoCo-LLaMA可以在标准的监督微调范式下进行有效训练利用VLM中现成的大量图像文本数据。此外VoCo令牌可以紧凑地表示为一组Transformer激活允许缓存它们以提高推理效率。 VoCo-LLaMA使得大语言模型能够学习视觉令牌的压缩过程 V o C o ( V ) VoCo(\mathcal{V}) VoCo(V)通过学习理解压缩的VoCo令牌例如学习分布 p V o C o ( y ∣ V o C o ( V ) , T ) p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T}) pVoCo​(y∣VoCo(V),T)。优化目标可以描述为 L ( V L M o , V o C o ) E V , T [ D K L ( p V L M o ( y ∣ V , T ) ) ∣ ∣ p V o C o ( y ∣ V o C o ( V ) , T ) ) ] L(VLM_{o},VoCo)E_{\mathcal{V},\mathcal{T}}[D_{KL}(p_{VLM_{o}}(y|\mathcal{V},\mathcal{T}))||p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T}))] L(VLMo​,VoCo)EV,T​[DKL​(pVLMo​​(y∣V,T))∣∣pVoCo​(y∣VoCo(V),T))] 另外本文的设计还提供了一个额外的优势VoCo令牌在压缩过程中专门与输入文本交互在视觉与文本模态之间建立无缝通道。这使得本文算法能够毫不费力地将压缩视觉信息与文本模态对齐无需专门的文本视觉感知多模态对齐模块设计
http://www.w-s-a.com/news/448012/

相关文章:

  • 百度收录较好的网站办公室装修设计方案
  • 建设购物网站要求cnzz数据统计
  • 深圳自适应网站建设价格广东网站建设软件
  • 网页设计介绍北京网站自己做彩票网站
  • 最牛论坛网站app生成链接
  • 用jsp做的网站源代码网站优化说明
  • 网站建设公司名字甘肃省和住房建设厅网站
  • 做外贸网站需要什么卡网站建设公司怎样
  • 网站关键词密度怎么计算的中文版wordpress
  • asp网站建设教程如何在线上推广自己的产品
  • 电脑网站你懂我意思正能量济南网站建设公司熊掌号
  • 杂志社网站建设萧山区网站建设
  • 电商网站前端制作分工网站怎做百度代码统计
  • 免费的html大作业网站网站开发心得500字
  • 临时工找工作网站做美缝帮别人做非法网站
  • 深圳网站建设 设计创公司新昌网站开发
  • 唐山教育平台网站建设上海装修网官网
  • 一个公司做多个网站什么行业愿意做网站
  • 成都龙泉建设网站免费域名app官方下载
  • xss网站怎么搭建如何用wordpress站群
  • 怎样做网站外链supercell账号注册网站
  • 阿里巴巴网站是用什么技术做的哪些网站做推广比较好
  • 做网站go和python手机如何创网站
  • 网站开发进修网站做301将重定向到新域名
  • 公司网站开发费用账务处理ucenter wordpress
  • 六站合一的优势少儿编程机构
  • 软件开发与网站开发学做美食网站哪个好
  • 网站搜索 收录优化百度推广页面投放
  • 响应式网站的优点浙江省网站域名备案
  • 网站安全 扫描深圳被点名批评