西安做网站,WordPress主题加密方式,网站建设服务领域,网站建设建站经验abstract
近年来#xff0c;多模态情感识别因其能够通过整合多模态信息来提高情感识别的准确性而受到越来越多的关注。然而#xff0c;模态差异导致的异质性问题对多模态情感识别提出了重大挑战。在本文中#xff0c;我们提出了一个新的框架——跨模态对比学习#xff08;…
abstract
近年来多模态情感识别因其能够通过整合多模态信息来提高情感识别的准确性而受到越来越多的关注。然而模态差异导致的异质性问题对多模态情感识别提出了重大挑战。在本文中我们提出了一个新的框架——跨模态对比学习CMCL它集成了多种对比学习方法和多模态数据增强来解决异质性问题。具体而言我们利用多样性对比学习、一致性对比学习和样本水平对比学习建立了一个跨模态对比学习框架。通过多样性对比学习我们将模态特征限制在不同的特征空间中捕捉到模态特征的互补性。此外通过一致性对比学习我们将不同模态的表示映射到共享特征空间中捕获模态特定特征的一致性。我们还引入了两种数据增强技术即随机噪声和模态组合以提高模型的鲁棒性。实验结果表明我们的方法在三个基准数据集上达到了最先进的性能并且优于现有的基线模型。我们的工作证明了跨模态对比学习和数据增强在多模态情感识别中的有效性并为该领域的未来研究提供了有价值的见解。
intro 近年来多模态情感识别已经成为情感计算领域一个很有前途的研究方向[1]。从面部表情、语音和语言语义等多种方式整合信息有可能提高情感识别的准确性。图1以简化的方式提供了多模态情感识别过程的清晰示例。当前主流的多模态情感识别方法包括从单个模态中提取语义信息然后构建一个模型使模态之间的交互能够进行特征融合。然后将得到的多模态特征用于情感识别。然而由于模态之间的差异而产生的异质性问题对多模态情感识别提出了重大挑战。在融合过程中模式之间存在固有的异质性[2]因此模式特有特征的互补性和一致性往往被忽视。这种疏忽会导致有价值的情态信息的丢失以及融合结果中冗余的多情态特征的存在最终导致情感识别的准确性不理想。
为了应对这一挑战早期的方法通常采用单模态表示将原始音频、视觉和文本数据映射到共享空间中。目前最先进的方法侧重于设计能够有效集成来自不同模式的信息的融合模型[3,4]。这种融合的质量对决定多模态情感识别任务的准确性起着至关重要的作用。这些融合方法主要包括情态关系融合[5,6]、情态特征对齐[7-9]和语义增强[10-12]。模态融合的目标是通过学习捕捉不同模态之间的依赖关系和相互作用从而获得多模态特征的判别表示。
虽然目前的机制在编码更健壮的特征和捕获准确的比较方面取得了实质性的进展但现有的情感识别方法通常依赖于直接的单模态表示和传统的信息融合。然而这些方法的一个局限性是它们没有同时考虑到不同模式之间的一致性和互补性。为了解决模式之间的一致性和互补性问题本研究提出了一个利用对比学习方法的新框架。对比学习利用样本之间的相似和不相似关系来学习判别表征。一些研究提出了多模态融合的对比学习方法。Y. Liu等人提出了一种名为TupleInfoNCE的多模态表示学习对比方法该方法明确考虑了模态之间的互补协同作用[13]。Yang等人提出了一种旨在捕获语义一致表征的多模态对比学习方法[14]。然而以往的多模态对比学习研究对多模态特征交互融合过程中模态之间的差异和一致性以及样本之间的差异和一致性的研究并不充分。
跨模态对比学习是一种深度学习技术用于处理来自不同模态的数据如文本、图像、声音等。它的基本原理是围绕嵌入来自不同模式的数据并将它们映射到共享的表示空间。随后使用对比损失函数来学习该表示空间内的特征确保相似的数据点靠得更近而不相似的数据点离得更远。跨模态对比学习的主要优势在于它能够有意义地整合和比较来自不同模态的信息从而有效地解决跨模态数据分析和应用中的挑战。 所提出方法的原理如图2所示其中圆形、正方形和三角形分别表示文本、音频和视频模态数据。三种颜色分别代表锚点样本、正样本和负样本。
首先特定于模态特定特征都是通过网络的模态特征提取得到的。由于模态之间存在语义差异本文采用多样性对比的方法在独立的语义空间中保持模态的差异性从而实现模态特征之间的语义互补。
其次对模态进行两两融合得到交互特征这些交互特征共享相似的信息例如文本-音频交互特征和文本-视频交互特征具有共同的文本语义因为音频和视频对应于相似的文本交互。因此通过一致性对比建立交互特征之间的一致性将它们映射到一个共享的特征空间中。此外考虑到情感表达的个体差异和多模态样本之间的显著差异采用样本对比学习来提高模型的泛化性。为了实现上述原则本文引入了一个跨模态对比学习CMCL框架。
在我们提出的框架中我们首先使用预训练模型和预处理工具如BERT[15]、LibROSA[16]和MTCNN[17]从文本、音频和视频数据中提取模态特定特征。为了保持模式之间的互补性我们设计了多样性对比损失LDCL鼓励模式特定特征之间的多样性。接下来我们采用双峰融合神经网络如注意力网络[18]建立模态之间的相互作用并获得融合的相互作用特征。为了确保交互特征之间的一致性我们引入了一致性对比损失LCCL来促进模式之间的一致性并将它们映射到共享的特征空间。此外我们利用样本水平对比损失LSCL来降低情绪表达的个体差异对模型泛化能力的影响。此外为了减轻过拟合并提高模型的性能我们在模型训练过程中引入了随机噪声和模态组合等数据增强技术
我们的方法的主要贡献可以总结如下
•我们提出了一个新的框架称为跨模态对比学习CMCL用于多模态情感识别。CMCL通过考虑模态之间的互补性和特征一致性来解决多模态数据的异质性问题。我们设计了三个对比损失函数来促进情感识别任务的多模态对比学习。
•为了减轻过拟合并提高情感识别模型的性能我们采用了多模态数据增强技术。具体来说我们设计了随机噪声注入和模态组合两种方法来生成新的样本用于训练多模态情感识别模型。
•我们在标准数据集上进行了广泛的实验包括CMU-MOSI CMU-MOSEI和CHSIMS。实验结果表明与现有的方法相比我们提出的CMCL框架具有显著的优势。此外我们还提供了一套全面的消融实验和分析以进一步支持对比学习和数据增强的有效性。
related work
多模态情绪识别
在多模态情感识别领域多模态融合技术通过对各种模态的关键特征进行过滤、提取和组合起到了至关重要的作用[1]。
近年来的研究对多模态融合的各个方面进行了广泛的探索包括情态关系融合、情态特征对齐和语义增强。理解不同模式之间的关系对于有效融合至关重要因为它有助于整合和理解来自不同来源的信息。例如W. Han等人提出了一种双峰融合网络通过相关性和差异增量来利用模态之间的独立性和相关性的动态[5]。此外它们还利用多式联运互信息进行高级的情态交互[19]。特征对齐技术涉及将不同的模态映射到共享空间从而产生内聚的多模态语义表示。C. Chen等通过消除背景噪声和遮挡噪声提高了模态对准性能[7]。研究表明言语情态相对于非言语情态的重要性整合言语情态的语义信息可以显著提高多模态表征的能力。D. Wang等人将音频和视觉线索整合到文本表示中生成了更有效的多模态表示[10,11]。C. Huang等人利用跨模态注意机制建立了以文本为中心的多模态融合网络取得了显著的性能提升[12]。这些研究不仅揭示了多模态融合技术的多样性而且强调了在不同模态之间建立有效连接的重要性。这些研究工作的一个共同主题是他们致力于提高模态融合的准确性和效率尽管实现这一目标的方法不同。
虽然已经提出了许多多模态融合方法来提高多模态情感识别的准确性但多模态融合中异质性的挑战仍然是影响多模态表示有效性的一个重要障碍。解决这种异质性问题已成为多模态情感识别领域的核心焦点旨在克服整合多种模态的挑战。D. Hazarika等人的一种方法是将多模态特征映射到模态不变子空间和模态特定子空间从而实现共享多模态表征和模态特定表征的学习[20]。
W. Yu等人的另一项研究利用自监督模型生成情态标签随后通过多模态和单模态任务学习模态之间的一致性和差异性[21]。张琪等通过整合一致性和差异网络来学习一致性和差异特征来解决这个问题[22]。
S. Mai使用对比学习方法探索了跨模态交互以及样本和类别之间的学习关系[23]。总之这些研究共同强调了解决多模态情感识别异质性挑战的持续努力提供了多种策略来增强多模态的整合。然而值得注意的是异质性问题特别是控制不同模式之间一致性和互补性的机制尚未得到充分探索仍然是一个活跃的研究领域。
对比学习
对比学习是一种越来越流行的无监督学习技术其重点是创建一个表示空间在这个空间中相似的样本被拉近而不同的样本则根据它们的相似性被推开。这种方法的原理是具有相似内容的数据点在特征空间中应该具有相似的表示而那些不相似的数据点应该具有明显的不同。对比学习的基本理论可以通过它的损失函数来解释通常被称为对比损失或三重损失。该损失函数的一般形式可表示为 其中i,j表示一对样本其中
•positive_pairi,j是一个函数用于测量一对相似或“正”样本之间的距离或不相似性。
•negative_pairi,j是一个函数用于测量一对不同或“负”样本之间的距离。
•margin是一个超参数它定义了不同样本之间的距离。
•[x]表示x的正部分相当于max0,x。
这种机制有效地创建了一个空间其中数据点根据其固有的相似性进行组织从而学习有用的和有区别的特征。
值得注意的是Chen等人引入的SimCLR是一个对比学习框架专门用于通过比较同一图像的多个增强视图来学习视觉表征[24]。另一种自监督方法由Grill等人提出的BYOL通过对比两个相同神经网络的输出来学习图像表示[6]。在另一种不同的方法中Caron等人提出了一种通过对比图像的聚类分配来进行无监督视觉特征学习的方法其结果与有监督方法相当[25]。这些技术证明了对比学习在不同领域的有效性SimCLR、BYOL和Caron的方法都利用对比学习在视觉表示学习中取得了令人印象深刻的结果
近年来对比学习已成为解决多模态融合和样本分布相关挑战的一种有价值的方法特别是在多模态情感识别领域。H. Wang等人提出了一种通过比较正负样本的相似性来增强情感表征判别能力的方法[26]。其他学者利用对比学习来解决多模态异质性问题提高多模态融合的有效性。
为了保证模态一致性采用跨模态一致性约束将数据的不同模态映射到同一语义空间中[27]。S. Mai等人引入HyCon混合对比学习方法学习样本间和类间的关系[23]。全志等
利用跨模态对比学习来捕捉不同的多模态动态[28]。然而以往的研究主要集中在模态一致性上而忽视了模态差异。要全面解决模态异质性必须同时考虑一致性和多样性两个方面。本文旨在通过融合一致性和多样性对比学习来提高多模态情感识别的性能
多模态数据增强
多模态数据增强涉及通过对现有数据应用各种转换或修改来人为地增加多模态数据集的大小和多样性。其目的是通过在输入数据中引入变量提高多模态模型的鲁棒性和泛化能力。
许宁等引入多模态数据增强框架以提高多模态图像-文本分类任务的性能[29]。他们通过从已有的单模态数据集中选择图像-文本对来构建多模态合成数据集。J. Huang等人通过用从原始训练样本中提取的更短的重叠样本替换原始训练样本来改进训练数据有效地增加了训练样本的数量[30]。H. Cucu利用语音数据增强技术来提高多模态系统的性能[31]。通过构建合成数据集、增加训练样本数量和利用语音数据增强等各种技术来增强多模态数据研究人员已经证明了增强多模态模型鲁棒性和性能的能力使它们能够有效地处理各种未知数据。
方法
模型结构 本文提出了CMCL一种多模态情感识别框架如图3所示。该框架由三个主要部分组成单峰特征提取跨模态对比学习和多模态数据增强。核心组件是跨模态对比学习它使模型能够学习跨不同模态的联合表示。该框架利用样本内的多样性和一致性对比来实现特定于模态的学习并有效地捕获模态间的关系。采用样本对比学习捕捉样本间情感表达的变化增强了情感识别模型的鲁棒性。单模态特征提取组件采用先进的特征提取方法分别从包括文本、音频和视频在内的每种模态中提取特征。多模态数据增强生成具有不同变化的新训练样本从而提高模型对未知数据的泛化能力。总体而言该模型利用跨模态对比学习和多模态数据增强来提高机器学习模型在多模态情感识别任务中的性能。
单峰特征提取
单模态特征提取阶段负责分别从每种模态中提取特征包括文本、音频和视频。我们采用先进的特征提取方法为每个模式量身定制以确保最佳性能。对于文本情态我们使用bert风格的预训练模型如BERTweet[32]来提取句子表示。这些模型有效地捕获了文本的语义信息提供了高质量的文本嵌入。在音频模态的情况下我们利用广泛使用的有效工具LibROSA[16]从语音信号中提取声学特征。此外我们采用双向长短期记忆BiLSTM网络来捕捉语音数据的时间特征。对于视频模态我们使用MTCNN[17]提取面部图像使用MultiComp OpenFace2.0工具包[33]提取面部特征如面部地标、面部动作单元、头部姿势、头部方向和眼睛注视。与音频模态类似我们利用BiLSTM网络来捕获视频数据的时间特征。单峰特征提取阶段的总体公式可以表示为 其中表示特征提取模型的参数。由原始数据导出的初始向量由特征组成。
我们分别从不同的特征提取模型中提取特征得到单峰特征向量和。
跨模态对比学习
跨模态对比学习旨在学习多模态融合过程中不同模态的鉴别联合表征。它利用多样性对比将情态特征限制在不同的语义空间中有效地捕捉到不同情态的不同方面。此外它利用一致性对比来保证交互语义空间内交互特征的一致性。
多样性对比学习鼓励模型捕捉每个模态中的变化保留不同观点之间的差异。同样一致性对比学习促进了模态不同观点之间的一致性增强了模型捕捉潜在概念和关系的能力。此外样本对比学习推动模型学习样本之间的差异使其能够区分个体之间不同的情绪表达。通过利用这三种类型的对比跨模态对比学习有效地学习了捕获不同模态和不同样本之间关系的联合表征。
多样性对比学习
多样性对比学习DCL通过获取每个模态的独特特征表示来解决模态互补性的挑战。它采用多样性对比来捕捉模态的多样性特征从而增强泛化和更全面的表征。DCL特别关注负对这是指来自不同模态但与同一样本相关的单模态表征对。对于每个小批中的每个模态该方法基于编码表示生成两个负样本。每对的评分函数依赖于单模态学习网络生成的表示的余弦相似性。为了简化计算余弦相似度可以缩放到0到1的范围。我们引入了一个多样性损失函数来鼓励模态之间不同表征的学习旨在最大限度地区分来自不同模态的表征。分集对比损失函数定义如下 其中sim·表示模态特征与负表示之间的余弦相似度。E是一个期望算子它计算一个mini-batch中所有可能集合S的平均值。此外模态边界参数α作为区分不同模态的阈值。它允许模态分布的某些变化为融合过程保留特定于模态的信息。通过最小化多样性对比损失该模型获得了识别不同模态的能力从而增强了捕捉模态之间互补性的能力。 Q这个对比学习的作用是什么 A论文中的描述是“通过多样性对比学习我们将模态特征限制在不同的特征空间中捕捉到模态特征的互补性。” 具体来说 目标希望模型学会在保持模态间多样性的同时不至于让不同模态的表示过于相似或过于不同。 多样性对比通过调整 与 α 的关系控制模态间的差异性。 计算过程 当平均相似度接近 α 时损失较小表示模型在保持模态间适当差异的同时没有过度分离。 当平均相似度远离 α 时损失较大模型需要调整使相似度回到合适的范围。 通过最小化损失模型学会在模态间保持一个适当的相似度水平既能捕捉到不同模态间的共同信息又能保留各自的特征。 一致性对比学习
一致性对比学习CCL通过学习表现出跨模态一致性的联合表征来解决模态一致性的挑战。在学习一致性之前CCL利用多头注意整合来自不同模态的信息促进模态互动。这使得模型能够从每个模态中识别和捕获互补信息从而产生包含输入数据本质的综合表示。文本、语音和视频模式的交互和融合可以使用以下公式计算产生融合特征 我们的目标是在模态交互过程中实现跨模态的一致信息。为了实现这一点我们采用一致性对比学习方法来加强跨模态一致性的学习。
一致性对比学习的计算与多样性对比学习相似主要区别在于用正对替换负对。
具体来说该方法侧重于基于每个小批量中两种模式的融合表示生成的阳性样本对。对于每个小批中的每一个融合表示该方法基于交互融合生成两个正样本。每对的评分函数由融合表示的余弦相似度确定。为了鼓励模型学习跨模态的一致特征我们设计并最小化一致性对比损失函数。一致性对比损失函数定义如下 其中sim·表示之间的余弦相似度。E是一个期望算子它计算一个mini-batch中所有可能集合S的平均值。通过最小化一致性对比损失该模型学习跨不同模态集成相似信息从而增强其捕获模态一致性的能力。
样本对比学习
使用样本对比学习SCL来探索样本之间的差异从而产生更具判别性的多模态表示从而增强模型的泛化能力。该方法采用多模态融合特征作为样本的锚点根据样本的标签生成正样本和负样本。正样本定义为具有相同情绪标签的多模态表示而负样本定义为具有不同情绪标签的多模态表示。该定义确保正样本捕获相同情绪类别的本质而负样本提供对比信号帮助模型区分不同的情绪类别。对于小批量中的每个锚点该方法生成一个集合S {p1, p2,⋯,pN, n1, n2,⋯,nM}该集合由N个正样本和M个负样本组成。为了同时考虑正负样本对我们设计了一个样本对比损失函数。通过最小化这个损失函数我们鼓励正样本对靠近同时推动负样本对远离。
其中sim·表示的多模态表示与正或负样本表示之间的余弦相似度。E是一个期望算子它计算一个小批量中所有可能集合S的平均值。这个损失函数鼓励模型通过最大化负对之间的距离和最小化正对之间的距离来学习更具判别性和鲁棒性的表示。
多模态数据增强
多模态数据增强是一种在训练阶段用于增强机器学习模型在多模态任务上的性能的高效技术。通过生成具有不同变化的新训练样本例如引入随机噪声或组合不同的模态模型暴露于更广泛的示例中有助于改进学习并更有效地泛化看不见的数据。我们使用两种方法实现多模态数据增强随机噪声RN和模态组合MC。
随机噪声
随机噪声RN涉及在原始数据中引入噪声或扰动从而增加数据多样性并提高模型的鲁棒性。加入噪声的公式如下
其中Fm表示模态m的新生成数据。表示生成的随机噪声分别表示正态分布的均值和标准差。是从标准正态分布N0,1中抽取的随机数。在实验阶段我们对每个训练样本添加一次随机噪声从而产生一个新的样本
在实际实现中对文本、音频和视频数据添加随机噪声的过程如下
1)对于文本数据我们使用同义词替换方法。这包括用同义词替换文本中的某些单词。这个过程从识别文本样本中的关键名词、动词和形容词开始。在每个句子中我们随机选择一个单词。对于每个选择的单词我们使用同义词典或语言模型如WordNet生成同义词列表。然后从这个列表中随机选择同义词来替换原始单词。该方法在文本中引入可变性同时保持整体上下文和含义增强了在该增强数据上训练的模型的鲁棒性
2)对于音频数据我们采用了背景噪声添加的方法。背景噪声表示为使用正态分布创建。我们从标准正态分布中产生噪声值。为了给噪声增加可变性和随机性我们从标准正态分布N0,1中采样值。一旦产生背景噪声它就会与原始音频信号相结合。噪声被叠加到音频信号上产生一个新的增强版本的音频数据。这种方法通过引入在真实音频环境中常见的现实变化来增强音频处理模型的鲁棒性。
3)对于视频数据我们实现了亮度变化。这涉及到引入视频帧亮度的变化。对于每一帧我们从一个预定义的范围内生成一个随机的亮度因子比如原始亮度的50-150%。然后我们通过改变像素亮度值来根据这个随机生成的因子来调整每帧的亮度。为了确保自然和一致的观看体验我们采用平滑技术来确保亮度变化在连续帧中一致应用。这种方法有助于避免突然的视觉跳跃为视频的视觉动态提供更加无缝和现实的改变。
模型组合
模态组合MC将数据的不同模态集成到统一的多模态表示中从而增加了数据的多样性增强了模型的泛化和鲁棒性。为了使用模态组合生成新样本我们从具有相同标签的样本中随机选择模态数据并将它们组合以创建新的多模态样本。生成这些新样本的公式如下所示。 其中Fnew表示新生成的样本ynew表示合并后的新样本的情绪标签Average·表示三种模态对应样本的平均情绪强度Fl1 m表示标签为l的样本中模态m的数据Random表示该数据的随机选择。在实验阶段我们通过模态组合生成了一批等于批大小的样本批大小设置为32。
在模态组合MC数据增强过程中我们首先根据情感标签如“积极”和“消极”对数据集样本进行分类然后将它们分成不同的模态如文本、音频和视频。我们从每个情感类别中的不同样本中随机选择并组合一段文本、一段音频剪辑和一段视频片段以创建新的多模态样本。使用average·函数计算这些样本的平均情绪强度以保持一致性。
重复此过程以生成一组与预定批大小匹配的新样本从而增强数据集的多样性以及模型对训练课程的泛化和鲁棒性
模型训练
为了识别情感类别我们将从多模态交互网络中获得的融合表示连接起来并将它们输入到一个直接的分类器中进行预测。 其中K表示类的总数wi表示第i类对应的权值向量。我们采用交叉熵损失函数作为情感识别任务的基本优化目标。
总体对比损失函数是DCL、CCL和SCL的加权和。我们的模型的总损失由整体对比损失和预测损失组成共同优化模型的性能 其中Lpred是预测损失λ1、λ2和λ3是调节三种对比损失的相对重要性的超参数。
experiments
在实验部分我们的主要目标是评估我们提出的框架在多模态情感识别任务上的性能
datasets
在本研究中我们使用三个基准数据集即CMU-MOSI [34] CMUMOSEI[35]和CH-SIMS[36]来评估所提出的框架。CMU- mosi和CMU- mosei都是由卡内基梅隆大学CMU的研究人员使用类似的方法开发的。CH-SIMS是由清华大学的研究人员开发的中文多模态情感识别数据集。 表1给出了上述数据集的基本统计数据提供了一个简明的概述。在这里我们简要介绍这些数据集。
CMU-MOSI数据集包含2199个视频片段分为训练集、验证集和测试集分别包含1284个、229个和686个语音。这些话语被手工标注情感强度范围从−3到3。为了与现有方法进行比较我们报告了二元情绪识别的结果其中值≥0表示积极情绪值0表示消极情绪
CMU-MOSEI数据集是一个更大的数据集由23,454个关于电影主题的YouTube视频剪辑组成该数据集被划分为训练集、验证集和测试集分别包含16216、1835和4625个话语。每个话语都被标注了一个情绪和情感标签用于七个维度包括效价、唤起、支配、快乐、惊讶、悲伤和厌恶
CH-SIMS数据集包括60个原始视频和精心挑选的2,281个视频片段这些视频片段来自各种来源包括电影、电视连续剧和综艺节目。数据集被划分为训练集、验证集和测试集分别包含1,368、456和457个片段。数据集中的每个样本都由人类注释者精心注释分配情感得分范围从- 1表示强烈的消极情绪到1表示强烈的积极情绪。这一综合标注方案使研究者能够探索中文多模态数据中细微的情感分析。
实现细节
在本节中我们将详细介绍模型的实现细节。在模态特征提取方面对于文本数据我们使用BERTweet1模型在两个英语数据集CMU-MOSI和CMUMOSEI上进行词嵌入和特征提取和RoBERTa2在CH-SIM中文数据集上进行词嵌入和特征提取。对于音频数据我们使用LibROSA提取音频特征。对于视觉数据使用MTCNN和OpenFace2.0提取面部视觉特征。训练epoch数设置为100batch大小为32使用Adam优化方法更新模型参数。学习率最初预热到1e-3然后使用余弦调度衰减到1e-5。该模型在两台NVIDIA A100 Tensor Core gpu上进行训练。在训练过程中为了提高训练速度对预训练的BERTweet和RoBERTa语言模型的参数进行冻结只更新模态融合和对比学习部分的参数
评价指标
对于CMU-MOSI、CMU-MOSEI和CH-SIMS数据集我们采用类似的评估指标来评估所提出框架的性能。这些指标包括(1)Acc2计算二元精度以确定模型在二元情绪分类中的表现区分积极和消极情绪(2) F1分数F1分数用于评价模型在情感分类任务中的准确率和召回率(3) MAE平均绝对误差Mean Absolute Error是一种回归度量用于量化预测情绪得分与真实值之间的平均绝对差值(4) Corr计算模型预测的情感得分与人类注释者确定的情感得分之间的相关性。在我们的实验结果中我们提出了分类和回归任务的评价指标。对于分类任务我们报告Acc2和f1分数。对于回归任务我们报告了MAE和Corr其中较低的平均绝对误差和较高的相关性表明较好的性能。
baseline
为了充分评估本文提出的模型的有效性我们在多模态情感识别的背景下与基线进行了比较。
TFN张量融合网络TFN[37]通过使用外积计算一个多维张量来捕获单峰、双峰和三峰输入之间相互作用的信息。
LMF: LMF (Low-order Multimodal Fusion)[38]是一种更高效的TFN版本它利用低阶多模态张量融合技术来提高性能。
MFN记忆融合网络MFN[39]引入了新的技术如delta-attention模块和多视图门控记忆网络旨在揭示数据中存在的多模态相互作用。
MFM: MFM (Multimodal Factorization Model)[40]学习针对特定渠道的生成特征的生成表示和用于分类目的的判别表示。
MULT: MULT (Multimodal Transformer)[3]是多模态转换器架构的扩展它采用有向双向交叉注意来实现一种模态到另一种模态的转换。
magg -BERT: magg -BERT[41]将多模态自适应门与BERT模型集成在一起。
这种集成使BERT模型能够在微调过程中有效地纳入多模态非语言数据。
MISA在MISA[20]中每个模态被投影到两个子空间中以创建模态不变和特定表示第一个子空间表示模态不变特征而第二个子空间捕获模态特定特征。
MICS在MICS[28]中通过对每个模态采用合适的策略并利用多模态比较学习交互模块进行融合解决了模态异质性问题。
HyCON在HyCON[23]中为了把握样本间和类间关系的细微差别以减少情态差距同时进行了模态内/模态间对比学习和半对比学习。
定量结果
在本节中我们将提出的方法CMCL与其他基线方法在三个标准实验数据集上进行比较。基线方法在CMUMOSI和CMU-MOSEI数据集上的结果使用各自文献中提供的原始数据进行报告。对于CH-SIMS数据集基线方法的一些结果来自原始文献。此外我们在CH-SIMS数据集上重建和测试了magg - bert、MISA和MICS模型以获得我们的结果。 表2给出了基于CMU-MOSI数据集的多模态情感识别实验结果。从表中可以观察到我们提出的方法在几乎所有评估指标上都优于基线。与表现最好的基准HyCON相比CMCL在Acc2上提高了1.5%在F1得分上提高了1.4%。虽然MICS和HyCON也使用对比学习方法但它们主要关注学习模态差异而没有考虑多模态融合过程中的一致性学习。实验结果表明该方法在小规模多模态情感识别数据集上具有显著的优势。 CMU-MOSEI数据集的实验结果如表3所示。实验结果表明该方法在Acc2、F1分数、MAE等方面均优于基线方法。与MICS和HyCON的最佳结果相比CMCL的Acc2提高了0.1%F1评分提高了0.1%MAE降低了0.014。虽然所提出的方法在Corr度量方面略低于HyCON但它仍然达到了相当的性能水平。实验结果表明我们提出的跨模态对比学习方法在应用于大规模多模态情感识别数据集时表现出显著的优势。 CH-SIMS数据集的实验结果如表4所示。对实验结果的分析表明我们提出的方法在Acc2、MAE和Corr方面优于基线方法。与比较中表现最好的方法相比CMCL的Acc2改善了0.2%MAE降低了0.015Corr提高了0.026。值得注意的是MICS取得了非常好的结果在F1得分方面优于我们提出的方法这可能是由于预训练的语言模型在相对小规模的中文数据集上的语义表示能力有限。然而我们提出的方法在大多数指标上仍然优于MICS表明其在中文多模态情感识别任务上的有效性。
消融实验
不同模态组合的效果 从表5可以看出文本模态在单一模态中二元分类准确率Acc2最高为78.9%平均绝对误差MAE值最低为1.194。视频模态的准确率为60.3%平均绝对误差为1.325音频模态的准确率为61.1%平均绝对误差为1.307。这些结果表明单模态特征提取网络在文本情态中提取的特征对情感识别是有效的。文本模态的优异表现可以归功于BERTweet的预训练语言模型它通过CLS令牌生成富文本特性从而在从头开始训练文本模态时消除了对特征提取模块的需求。
在双峰场景中利用每个单独模态中的特征提取网络以及跨模态对比学习与单模态设置相比可以提高性能。具体来说音频和文本、文本和视频以及音频和视频的双峰组合都表现出优异的效果。这些发现为双峰对比学习在提高系统整体性能方面的有效性提供了证据。
在三模态情况下与双模态模型结构相比提出了一种包含三模态的CMCL方法。该架构产生了最佳结果Acc2为87.9%F1为87.8%MAE为0.674Corr为0.828。这些结果表明跨模态对比学习在整合和利用所有三种模态的信息方面是有效的从而提高了三模态情感识别任务的表现。
不同对比学习方法的效果
为了分析DCL Diversity contrastive learning、CCL Consistency contrastive learning和SCL Sample contrastive learning三种对比学习方法的效果我们在CMU-MOSI数据集和CMU-MOSEI数据集上进行了实验结果如表6所示。当使用个体对比学习方法时DCL表现出最好的性能在CMUMOSI数据集上达到85.6%的准确率在CMU-MOSEI数据集上达到85.0%的准确率。 这些结果表明模态之间的互补性在多模态情感识别中至关重要。
此外与基线模型相比另外两种对比学习方法也提高了识别性能。两种对比学习方法的结合进一步提高了多模态情感识别的有效性突出了不同对比学习方法之间的相互强化。其中DCL和CCL的组合达到了最好的性能在CMU-MOSI数据集上的准确率为87.3%在CMU-MOSEI数据集上的准确率为85.8%。此外当同时考虑这三种对比学习方法时CMU-MOSI数据集的分类准确率达到87.9%CMU-MOSEI数据集的分类准确率达到86.6%。结果表明通过学习模型之间的互补性和一致性以及样本数据之间的差异性该模型有效地提高了情感识别的性能。 损失因子λ1、λ2、λ3的影响
首先初步实验表明将损失函数参数设置在0 ~ 0.1之间效果较好。然后使用网格搜索方法搜索最优参数。Eq.17中的λ1、λ2和λ3对CMU-MOSI数据集和CMU-MOSEI数据集的影响
如图4图像左侧可以看到当λ1设为0时该模型没有进行多样性对比学习也没有利用多样性对比损失进行训练。因此该模型在两个数据集上的性能都不令人满意。随着λ1值的增加两个数据集的精度都略有提高。当λ1设置为0.02时精度达到峰值。 这些结果表明无论λ1值如何经过多样性对比训练的模型的准确率始终优于未经过多样性对比训练的模型。
图4中间展示了λ2对CMU-MOSE数据集和CMU-MOSEI数据集的影响。当λ2设为0时训练模型时没有进行一致性对比学习导致特征包含很多不一致的信息。因此该模型在数据集上的性能并不令人满意。随着λ2值的增加两个数据集的精度都略有提高。在这一点上通过一致性约束的应用删除了冗余和不相关的特征从而提高了准确性。当λ2设置为0.03时精度达到峰值。这些结果表明无论λ2值如何经过一致性对比训练的模型的准确率始终优于未经过一致性对比训练的模型。
在图4的右侧描述了λ3对CMUMOSE数据集和CMU-MOSEI数据集的影响。λ3参数用于控制样本对比学习的损失。通过调节λ3我们可以调节模型训练时分配给样本对比损失的权重。当λ3设为较大值时样本对比损失的权重占主导地位从而更加强调学习判别表征。但是如果λ3过大则会导致样本对比学习过程中增加的噪声过大导致准确率下降。这是因为噪声淹没了数据中有意义的信号阻碍了模型学习有意义表示的能力。相反当λ3设置为较小的值时它对样本对比学习方面的重视程度较低。因此在两个数据集上精度可能会略有提高。达到最高精度的最佳值λ3取决于特定的数据集和任务的性质。在CMU-MOSI数据集和CMU-MOSEI数据集中λ3分别为0.01和0.02时精度达到峰值。
这些结果证明了适当调整λ3以平衡样本对比学习和噪声的影响对于在情感识别任务中获得最佳性能的重要性。
模态边界参数α的影响
通过比较前面讨论的学习方法我们可以观察到当使用DCL时模型的精度提高了说明多样性对比学习的有效性。为了进一步研究DCL的作用本研究深入研究了不同模态边界参数α值的影响。 我们的CMCL模型在参数α为0.7时达到最优性能。根据表7所示的结果我们可以观察到当α偏离0.7时我们的模型性能下降。当α设置为较低的值时例如0.6或0.8会产生显着的模态间隙从而阻碍更好的性能。
相反如果α设置得太高如0.9不同模态的对齐可能导致模态特定信息的丢失。因此选择一个合适的α值是实现最优解的关键。 不同多模态数据增强的效果 为了研究包括随机噪声RN和模态组合MC在内的多模态数据增强技术对情感识别性能的影响在CMU-MOSI和CMU-MOSEI数据集上进行了对比实验。实验结果见表8。
值得注意的是单独结合RN或MC都产生了令人印象深刻的情感识别准确性强调了引入噪声或组合模式以生成不同训练样本的好处。这表明两种增强方法对提高模型的性能都有积极的作用。当两种数据增强方法同时使用时获得了最佳性能。
CMU-MOSI和CMUMOSEI的准确率分别为87.9%和86.6%。这些结果表明随机噪声注入和模态组合之间的协同作用可以进一步增强模型在不同多模态数据集上的泛化能力。研究结果强调了多模态数据增强在多模态情感识别任务中的重要性。
嵌入空间的可视化 我们给出了嵌入空间中多模态表示分布的可视化。在图5中右和左图分别描述了采用和不采用跨模态对比学习的CMCL学习到的嵌入空间。可视化是通过应用t-SNE算法将多模态表示转换为二维特征空间来生成的。我们可以推断在没有对比损失的情况下嵌入空间中的数据点是分散的不同的情感类不会形成不同的聚类。然而当对比损失被纳入模型时数据点之间的距离显着减少导致每个情感类形成一个可区分的聚类。此外两个情感集群的中心相距很远嵌入空间的中间位置有挑战性的数据点。这是因为我们显式地对不同样本之间的相似性进行建模使同一类的样本更接近并将不同类的样本推得更远。这种方法有助于分类器做出准确的预测。尽管如此值得注意的是一些数据点很难正确分类并且可能出现在错误的聚类中。这是合理的因为即使使用训练有素的分类器情感分类的准确率也大约是88%。
情绪回归的样本分析 为了证明我们提出的模型在情感识别领域的有效性我们展示了输入数据的可视化包括文本、语音和视频以及每种情态的相应分数和最终的预测情感分数如图6所示。在可视化中消极情绪用红色表示积极情绪用绿色表示中性情绪用白色表示。在这个例子中我们可以观察到视频形态中明显的情感两极分化面部表情传达出严肃和皱眉的感觉。然而视频内容在传达情感方面可能是模棱两可的。在这个特定的样本中真实标签被确定为0.4而我们的模型预测得分为0.38表明积极情绪较弱。仅考虑视频方式时情绪强度为-0.6表明消极情绪强烈。为了解决这一问题CMCL结合了多样性对比学习和一致性对比学习有效地减轻了歧义。最终得分结果验证了在CMU-MOSI数据集上合并声学图5 T-SNE多模态嵌入空间可视化的有效性。
“红点”和“绿点”分别表示消极和积极情绪的数据点以及在视觉分析中消除情感内容歧义的文本模式。
conclusion
本文针对多模态情感识别任务提出了一种跨模态对比学习框架CMCL以解决多模态数据融合过程中的异质性问题。该框架既考虑了模式之间的互补性和一致性也考虑了样本之间的差异。对比学习损失函数旨在保留不同模态特征之间的差异并将模态交互特征映射到共享特征空间。
在训练阶段采用多模态数据增强方法防止过拟合提高模型的鲁棒性。大量的实验和比较分析表明该框架在三种不同的多模态情感识别数据集上优于其他基线方法表明对比学习框架部分解决了多模态数据的异质性问题。然而特征可视化表明对比学习框架获得的多模态融合特征的判别能力仍有提高的空间获得更多的判别多模态特征将是未来研究的重点。
在未来的研究中可以通过整合先验知识、特征去噪和多视角学习等方法来增强多模态情感特征的可识别性。整合先验知识包括使用经过先验知识增强的专门神经网络架构或者在模型训练期间将这些知识作为约束。这有助于模型在处理不确定和复杂的数据时保持鲁棒性。
特征去噪是通过使用自动编码器、噪声滤波算法或统计方法来减少来自各种模态的数据中的噪声来实现的。多视图学习通过并行或交互的多视图学习框架实现充分利用每种模式的独特特性提高模型对复杂模式的理解和预测能力。