基层组织建设部 网站,做音乐网站没有版权,网站开发可选择的方案有,广告宣传片制作公司广告视频大开眼界#xff1f;探索多模态模型种视觉编码器的缺陷。 论文中指出#xff0c;上面这些VQA问题#xff0c;人类可以瞬间给出正确的答案#xff0c;但是多模态给出的结果却是错误的。是哪个环节出了问题呢#xff1f;视觉编码器的问题#xff1f;大语言模型出现了幻觉探索多模态模型种视觉编码器的缺陷。 论文中指出上面这些VQA问题人类可以瞬间给出正确的答案但是多模态给出的结果却是错误的。是哪个环节出了问题呢视觉编码器的问题大语言模型出现了幻觉还是视觉特征与语言模型间的特征没有对齐 作者将上述问题分成了9个类别通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类
通过实验发现增加模型规模/训练数据的数量多模态模型仅在颜色/外观任务和物体状态/状况这两项任务上的表现有提升。通过实验发现两张很相似的图片如下图的两只蝴蝶视觉编码器CLIP给出两张图片的相似度很高但是自编码器DINO给出的相似度不是很高作者定义这两幅图片为CLIP-blind pairs clip和多模态模型在这9项任务上的表现
通过增加自监督特征多模态模型的能力有了提升 上图种左边是目前的多模态结构中间部分是两部分特征线性相加右边是交错混合的方式。 为了评价多模态模型在这些任务上的表现建立了MMVP-VLM的测试集。
MMVP-VLM的建立过程