网站建设熊猫建站,asp网站开发上传组建,wordpress博客实现ajax,电商网站制作价格Improved Baselines with Visual Instruction Tuning 通过视觉指令微调增强的基线方法
论文摘要#xff1a; 我们发现#xff0c;LLaVA中的全连接视觉语言连接器非常强大且数据效率高。
3.3 数据和模型的scaling
受到将线性投影转变为多层感知机#xff08;MLP#xff0…Improved Baselines with Visual Instruction Tuning 通过视觉指令微调增强的基线方法
论文摘要 我们发现LLaVA中的全连接视觉语言连接器非常强大且数据效率高。
3.3 数据和模型的scaling
受到将线性投影转变为多层感知机MLP在自我监督学习中提高性能的启发[9, 10]
我们发现通过使用两层MLP来增强视觉-语言连接器的表征能力可以提升LLaVA的多模态功能相比原始的线性投影有所增强。
QA
LLaVA1.5 的 跨模态连接器
LLaVA 1.5使用的是视觉-语言连接方案具体如下 视觉编码器采用 CLIP 的视觉编码器CLIP-ViT-L/14并且将输入图像的分辨率从 224px 提升到 336px这使得模型对图像细节的理解能力更强能够提取更高质量的视觉特征。 跨模态连接器由原来的单个线性层替换为多层感知机MLP层作为跨模态连接器。MLP 包含两层线性层并使用 GELU 激活函数这种结构增强了连接器的表达能力能够更好地融合视觉和语言信息。相比原始的线性投影架构MLP 跨模态连接器显著提升了 LLaVA 的多模态能力。 语言模型使用 Vicuna v1.5 13b 作为语言模型语言模型参数量更大效果更好。在输入方面视觉和语言的指令在同一个特征空间一起拼接后送进模型进行处理实现了图像和语言在模型中的交互和融合。
CogVLM
CogVLM的跨模态连接器主要是通过视觉专家模块Visual Expert Module来实现的。具体情况如下 结构组成 QKV矩阵每一层的视觉专家模块都包含一个QKV矩阵其形状与预训练语言模型中的形状相同并从预训练模型中初始化。该矩阵用于将图像特征转换为与语言模型不同注意力头相匹配的形式使得图像特征能够更好地与语言模型进行交互和融合。MLP层除了QKV矩阵视觉专家模块还包含一个MLP多层感知机层。MLP层可以对经过QKV矩阵处理后的特征进行进一步的处理和转换增强模型对视觉和语言特征的深度理解和融合能力。 作用原理在模型的每一层中图像特征和文本特征一起进入到新的不同的QKV矩阵和MLP层进行处理。这样的设计使得视觉信息能够在语言模型的各个层中得到充分的交互和融合而不是仅仅在输入层进行简单的映射。通过这种深度融合的方式CogVLM能够更好地理解图像和文本之间的关系提高模型在各种视觉语言任务上的性能。 优势特点 增强特征融合可训练的视觉专家模块能够缩小图像特征和语言特征之间的差异提高信息的质量和准确性实现视觉语言特征的深度融合避免了浅层对齐方法中信息损失和噪声干扰的问题。保持语言模型性能在保持语言模型原有参数固定的情况下当输入序列不包含图像时模型的表现与原语言模型相同不会影响语言模型在纯文本任务上的性能。同时利用冻结的预训练语言模型还可以降低计算成本和内存消耗提高计算效率和可扩展性。