佛山网站建设定制开发,建设网站话术,wordpress postmeta,qq空间网页版登录入口DynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程#xff0c;显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制#xff0c; 能够以同时完成区域识别、区域属性检测和区域字幕生成任务。 文章链…DynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制 能够以同时完成区域识别、区域属性检测和区域字幕生成任务。 文章链接https://arxiv.org/abs/2405.16071
代码链接https://github.com/callsys/DynRefer
一.介绍
区域级多模态任务模仿人类认知过程根据特定的任务要求开放词汇检测、属性识别、字幕生成等将参考的图像区域翻译为语言输出。现有的方法以固定的分辨率作为输入限制模型对于丰富分辨率的处理能力且难以捕获上下文信息。
人类的认知系统可以根据特定的语言描述任务要求通过注视和调整眼动的过程来调整视觉输入形成非均匀的分辨率。现存的多模态大语言模型不具备视觉区域选择能力导致应用于具体任务时缺乏特异性。
受视觉认知机制的启发即增加聚焦区域的分辨率同时抑制不相关的背景区域提出动态分辨率方法如下图所示。
DynRefer在训练时引入随机视觉-语言对齐首先对参考区域的周围进行采样构建随机分辨率的图像然后将图像嵌入于具体任务的语言描述对齐。在推理时执行动态多模态参考形成与图像和语言描述先验相对应的动态分辨率图像。 二.相关工作
视觉语言模型
根据训练目标Vision-Language ModelsVLMs可以分为图文对比学习、图文匹配、语言建模3种类型。应用于区域级任务时模型在区域-文本对上进行训练以获取区域级理解能力。
区域级多模态任务
(1) 检测
基于对比学习的方法通过计算图像划定区域的特征与文本特征之间的相似度确定检测类别基于语言建模的方法借助大语言模型得到开放集中和图像区域最可能的类别。
(2) 属性
一些研究基于COCO Attributes、VAW等属性数据集训练多分类网络实现属性预测一些研究受到CLIP 、OVAD模型的启发从字幕中得到属性类别开集预测。
(3)字幕生成
使用多模态模型生成区域级字幕的方法被研究者广泛采用。GRiT通过将对象类别看作为简短的字幕来统一分类和字幕生成任务CapDet则是在预训练设置中将字幕与开放集检测结合起来。
视觉认知动态分辨率
视觉认知领域的研究表明人类视觉系统具有动态分辨率。相比之下计算机视觉系统缺乏动态机制只能捕获静态视图。 三.方法
3.1 随机视觉-语言对齐
3.1.1 多视图构建
原始图像 x 被裁剪为多个候选视图。裁剪区域的计算方式为 其中表示参考区域的边界框表示整个图像的尺寸t 表示插值系数。在训练过程中从候选视图中随机选择 n 个视图以模拟由于注视和眼球快速运动而生成的图像。 n 个视图对应于插值系数 t即t。
3.1.2 随机多视图嵌入
采样的n个视图经过ViT模块获得空间特征并后接RoI Align模块得到区域嵌入如下图左侧所示。 由于crop、resize和 RoI-Align 操作引入的空间误差区域嵌入在空间上并不对齐。受 deformable convolution 启发提出了1个对齐模块Align module通过将与对齐来减少偏差其中 是仅包含参考区域的视图的区域嵌入。对于每个区域嵌入首先将其与 连接然后通过Conv计算2D偏移图然后的空间特征然后根据2D偏移重新采样最后对齐后的区域嵌入沿通道维度连接并通过 MLPs 层进行融合。输出进一步通过视觉重采样模块即 Q-former进行压缩得到区域表示。
3.1.3 视觉语言对齐
通过随机多视图嵌入模块计算得到的区域表示由3个解码器进行解码如上图右侧所示分别受到3个多模态任务的监督。
i) 图像区域标签生成。采用基于查询的轻量级识别解码器进行区域标签生成。解码器 通过使用标签作为query作为key和value计算预定义标记的置信度来完成标记过程。从字幕中解析出标签以监督解码器采用非对称损失。
ii) 区域 - 文本对比学习。解码器 是基于查询的识别解码器计算字幕与区域特征之间的相似性分数使用Sigmoid损失。
iii) 语言建模。采用预训练的大语言模型 将区域表示 转换为语言描述采用cross-entropy损失。
3.2 动态多模态参考
在推理过程中通过调整插值系数t得到具有动态分辨率的区域表示。在3个多模态任务上评估动态分辨率的影响n2,结果如下图所示。 可以看出属性检测在时无上下文视图可以获得更好的结果字幕生成任务则在或时需要上下文来理解参考的区域表现更佳在时表现下降。
当任务已知时可以根据任务特性采样合适的视图当任务未知时需要根据插值系数构建候选视图。通过贪婪搜索算法从候选中选择n个视图搜索目标为 其中表示第i个插值系数表示第i个视图表示感知图像哈希函数表示异或操作。
3.3 多种视图
DynRefer学习多个区域表示如下图所示。 四.实验
DynRefer基于LAVIS框架实现LLM模型采用Flan-T5XL视觉重采样采用Q-former采样视图呗调整为224*224分辨率模型在VG V1.2上进行训练。
4.1 性能
区域级字幕
在区域级字幕任务中与SOTA方法的对比结果如下。 在密集字幕中与SOTA方法的对比结果如下。 开放词汇属性识别
在OVAD数据集上的表现如下表所示。 开放词汇区域识别
在COCO-2017数据集上的表现如下表所示。 多任务能力
DynRefer模型可以实现多模态多任务处理字幕、标签、属性、类别如下图所示。