浏览器显示不安全网站建设,做零食用哪个网站好,开发软件公司全部抓进去了,响应网站怎么做整理了CVPR2024 Multimodal Representation Learning by Alternating Unimodal Adaptation#xff09;论文的阅读笔记 背景MLA框架实验Q1 与之前的方法相比#xff0c;MLA能否克服模态懒惰并提高多模态学习性能?Q2 MLA在面临模式缺失的挑战时表现如何?Q3 所有模块是否可以有… 整理了CVPR2024 Multimodal Representation Learning by Alternating Unimodal Adaptation论文的阅读笔记 背景MLA框架实验Q1 与之前的方法相比MLA能否克服模态懒惰并提高多模态学习性能?Q2 MLA在面临模式缺失的挑战时表现如何?Q3 所有模块是否可以有效提高性能?Q4 MLA如何改变多模态学习中的模态差距 背景 多模态学习集成了来自不同模态的数据在人工智能中起着关键作用。但是现有的多模态学习方法存在一个普遍的问题一些模态比其他模态更占优势模型将针对这些主导模态进行优化并倾向于忽略其他模态从而导致次优性能这被称之为模态懒惰问题。 图一是模态懒惰问题的概述虽然多模态联合训练为跨模态交互学习提供了机会但模型容易饱和忽略了难以学习但对泛化来说很重要的单模态特征。那么如何解决这种模态懒惰问题进一步释放多模态学习的潜力就成为了一个必须要思考的问题。
MLA框架 为了解决这一挑战本文提出了一个多模态学习与交替单模态适应的方法称为MLA。把多模态的传统联合训练方案重新构建到交替的单模态学习框架中从而将模态之间的干扰最小化。 具体地说MLA中每个模态的预测函数包括一个模态特定的编码器和一个跨所有模态的共享头。在交替单模态学习中根据每个模态的预测函数交替优化以消除模态之间的干扰。同时共享头部跨模态在不同模态之间不断优化捕获跨模态信息。作者提出单模态交替学习的动机是认为信息较少的模态在与其他模态一起学习时优化不足这是导致融合表现不佳的原因。 在这个优化过程中当遇到一个新的模态时很容易丢失先前从其他模态学习到的信息这被称为模态遗忘。为了解决这个问题MLA为共享头部引入了梯度修改机制以鼓励模态之间的梯度方向正交化。 图一b是测试阶段在学习了特定模态编码器和共享头部的权重之后MLA通过一个测试时动态模态融合机制来整合多模态信息。衡量每个模态的重要性依赖于测量与该模态相关的预测中观察到的不确定性水平。这种机制的动机是这样一个假设:当一种模态在预测中表现出更高的不确定性时它更容易产生不正确的预测因此MLA利用预测不确定性衡量每个模态重要性。熵 e m , r e_{m,r} em,r越高表明预测的置信度越低导致聚变过程中的重要权值越小。
实验 在实验部分作者提出了以下几个问题:Q1:与之前的方法相比MLA能否克服模态懒惰并提高多模态学习性能?Q2: MLA在面临模式缺失的挑战时表现如何?Q3:所有模块是否可以有效提高性能?Q4:MLA如何改变多模态学习中的模态差距。
Q1 与之前的方法相比MLA能否克服模态懒惰并提高多模态学习性能? 本文利用一组具有不同任务的五个数据集来评估具有完整模式的学习性能:
CREMA-D[6]和Kinetic-Sound (KS)[3]属于音视频数据集的范畴。CREMA-D提供描述各种情绪的音频和视频记录做情感分类任务。而KS将视频和音频数据结合起来用于对象和动作识别。Food-101[39]和MVSA[25]都是图像-文本数据集。food -101包含超过10万种食物图片附有相应的文字进行食物分类任务。MVSA通过使用文本和图像数据专注于多媒体帖子的情感分类。IEMOCAP[5]是一个音频-图像文本数据集在自然对话中捕获音频、视觉和文本数据中的情感。 从实验结果中我们可以观察到。在众多数据集上除了后期融合之外的方法优模态和劣模态性能之间的性能差异非常显著。这说明大多数传统的融合方法都面临着模态惰性的挑战。后期融合通过在专门训练对每个模态的编码器在一定程度上减轻了模态惰性但在集成来自所有模态的信息时它无法提供令人满意的性能。这种限制是因为它无法有效地捕获跨模式信息。在所有场景中MLA的表现始终优于所有其他方法。这证明了MLA通过充分利用每个模态的信息和捕获跨模态知识有效地解决了模态懒惰问题提高了多模态学习性能
Q2 MLA在面临模式缺失的挑战时表现如何? 进一步评估缺少模态的数据集的性能模态缺失被视为模态懒惰的极端情况。对IEMOCAP数据集中的训练和测试数据应用基于百分比的掩码随机掩盖每个样本的每个模态。 我们可以观察到随着模态缺失率的增加所有方法的性能都有所下降。这正是我们所期望的因为与仅使用部分模态数据相比使用所有模态数据往往会提高性能。MLA在所有缺失率上的表现始终优于其他基线包括这些后期融合方法和专门为解决缺失模式(例如MMIN)而设计的方法。这些结果突出了MLA在解决模态懒惰挑战方面的有效性即使在缺少模态学习的极端情况下也很强。
Q3 所有模块是否可以有效提高性能? 图三展示了消融实验的结果其中HGM是梯度修正DF是动态融合。通过梯度修正的方法更新共享头权重可以提高仅使用单一模态和多模态信息的性能。这种改善是因为减轻模态遗忘的影响可以更好地整合跨模态信息有利于单模态和多模态的学习过程。 使用测试时间动态融合机制可以显著促进多模态学习过程。因为测试时间动态融合考虑了模态预测的不确定性利用预测不确定性度量测试样例上模态的重要性使模型能够更准确地融合多模态信息。 综合两种策略后MLA表现出最佳性能
Q4 MLA如何改变多模态学习中的模态差距 图二是MLA在KS数据集上的测试准确度的可视化随着音频或视频训练数据中缺失模态的比例而变化。 我们可以观察到MLA中单模态学习的表现不受其他模态缺失的影响。在QMF中一种模态的缺失会对另一种模态的表现产生负面影响。这些发现表明采用交替优化方法可以有效地解决模态惰性问题。 在多模态学习中存在模态间隙就是不同的模态信息位于嵌入空间内两个完全独立的区域。这种模态差距与模型性能相关以往的研究表明增加模态差距可以在某种程度上提高多模态学习中的分类性能。图三将Food101数据集中的文本和视觉模态之间的模态差距可视化与串联的方法比较MLA导致了更大的模态差距这表明不同的模态变得更容易区分从而导致更强的性能。