获取网站访客qq信息,免费咨询图片大全大图,网站功能项目报价,wordpress grace8下载摘要
关系学习是知识表示领域#xff0c;特别是知识图补全#xff08;KGC#xff09;领域的一项重要任务。虽然传统单模态环境下的关系学习已经得到了广泛的研究#xff0c;但在多模态KGC环境下探索关系学习提出了不同的挑战和机遇。其中一个主要挑战是在没有任何相关训练…摘要
关系学习是知识表示领域特别是知识图补全KGC领域的一项重要任务。虽然传统单模态环境下的关系学习已经得到了广泛的研究但在多模态KGC环境下探索关系学习提出了不同的挑战和机遇。其中一个主要挑战是在没有任何相关训练数据的情况下对新发现的关系进行推断。这种零机会关系学习场景对多模态KGC提出了独特的要求即利用多模态来促进关系学习。然而现有的工作不能支持多模式信息的杠杆作用并没有探索这个问题。本文提出了一个由多模态学习器、结构整合器和关系嵌入生成器三部分组成的端到端框架用于整合不同的多模态信息和知识图谱结构实现零点关系学习。在两个多模态知识图上的评价结果证明了该方法的优越性。
1.介绍
知识图Knowledge graphs, KGs一直是组织从不同来源提取的知识并以头、关系、尾的三元组形式展示实体之间关系的主流方式在自然语言处理[1,34]和推荐系统[17]中得到了广泛应用。近年来多模态知识图MMKGs[27]已经出现它包含了丰富的多模态信息如视觉、文本和结构元素为许多任务展现了更复杂的能力如命名实体识别[8]、语言建模[22]和问题回答[29]。
尽管mmkg得到了广泛的应用但关系上的长尾分布仍然严重阻碍了其在实践中的应用即少数关系密集地分布着正尾实体样本而绝大多数关系具有稀疏甚至没有实体关联。由于缺乏足够的三元组这些关系导致对表示的不准确学习。最近的研究[4,42,51]试图减轻单模态kg中长尾关系的影响但每个关系仍然需要几个三元组并且无法在没有三元组的情况下处理这些关系。在现实中没有三元组的关系经常出现在MMKG的演化过程中这些新发现的关系被添加到现有的MMKG中以扩大现有的MMKG从而导致非平凡的零射击场景其目的是在没有这些关系的任何训练样例的情况下推断MMKG中实体之间的关系。例如在图1中在0的MMKG中有两个分支一个主要包含奥斯卡奖的获奖者另一个主要包含传记类型的电影。 大多数现有的KGC作品[5,7,23,44,49]只能用一组正尾实体对来推断关系不能对新发现的关系推断三元组。一些作品[14,31]专注于零射击场景需要从Web中提取文本描述但没有探索多模式信息。事实上结合实体的多模态信息特别是相关图像、文本描述和KGs的原始拓扑属性可以极大地提高对新发现关系的表示学习。在图1中关系的描述Custom designer是负责设计和创造电影中人物整体视觉美学和外观的专业人员头部实体the Aviator和Michael Collins的多模态信息包含电影的共享语义尾部实体Sandy Powell包含设计的语义。因此新关系的描述与实体的多模态信息具有潜在的相关性这种相关性可以作为推断新关系缺失三元组的指导。然而由于实体和关系的不同形式建模潜在相关性是非常重要的。一种直接的解决方案是使用VGG16[36]和Bert[10]等规范化预训练模型分别学习不同模态的表示然后将这些嵌入进行整合但这样会丢失细粒度的语义信息难以捕获潜在的相关性。
为了利用多模态信息进行零次关系学习我们提出了一个名为MRE的多模态关系外推框架来学习零次场景中新发现的关系的表示。具体来说为了在细粒度层面整合多模态信息我们提出了一个多模态学习器来编码多模态信息并对模态之间的潜在相关性进行建模。然后利用结构整合器将kg的结构信息整合到多模态融合过程中进一步细化多模态的表示。最后我们设计了一个关系嵌入生成器根据生成对抗网络的原理通过极大极小博弈来学习准确的关系表示[16]。经过训练后当面对一个没有训练三元组的新关系时可以使用优化后的关系嵌入生成器来学习关系表示。总的来说我们在这项工作中的贡献包括 我们是第一个在MMKGs中采用多模态信息来促进零射击设置下的关系学习的人我们提出了一个新的端到端框架用于集成不同的多模态信息和KG结构以改善关系表示学习。我们在两个真实世界的多模态知识图上进行了广泛的实验。实验结果表明该方法的性能优于现有的方法具有显著的提高。
2.相关工作
2.1知识图谱补全
传统的知识图谱补全侧重于利用知识图谱内部固有的结构信息。它的目标是学习实体和关系的有意义的表示仅仅基于知识图的拓扑特征。通过利用结构信息目标是准确地预测知识图中实体之间缺失的或潜在的联系。TransE[7]是一种典型的基于平移距离的嵌入方法其变体TransD[23]和TransH[44]旨在最小化头部实体、关系和尾部实体之间的距离。类似地DistMult[49]使用加权的逐元素点积来组合嵌入空间中的两个实体嵌入。近年来基于图神经网络graph neural network GNN[25]的方法显示出其对关系信息建模的优越能力。RGCN[33]、KBAT[30]利用gnn对知识图中的多跳邻域信息进行聚合对实体特征进行编码。这些方法在捕获知识图的结构信息方面表现出色这激励我们在多模态学习的背景下利用它们的见解。
为了对多模态知识图建模IKRL[46]引入了一种融合方法该方法使用类似transe的能量函数[7]集成实体图像和结构信息。随后,TransAE[43]扩展了融合方法使用多模态编码器学习实体的视觉和文本知识。MKGformer[9]进一步提出了多级多模态特征的混合融合。MoSE[52]将每个多模态三元组视为紧密耦合关系并分离模态来学习KG嵌入。与TuckER[5]类似IMF[26]对每个模态采用TuckER分解来捕捉模态之间的相互作用。与这些方法相比我们的方法在通过掩码和重建过程捕获细粒度多模态语义方面优于它们并有效地解决了零射击设置中的新关系而不需要特定于关系的训练三元组。
2.2 Relation Extrapolation
Few-shot和zero-shot学习已经成为数据高效任务的普遍范例并在许多领域取得了巨大成功[38,45]。为了有效地处理知识库中的长尾关系一些代表性的研究[35,47,48]将重点放在了链接预测任务中的少镜头关系学习上。Gmatching[47]研究关系的一次性场景用实体对的局部图结构建模。FAAN[35]扩展到考虑实体动态特性的少镜头场景。FSRL[48]使用关系感知编码器对实体的邻居进行编码并聚合多个实体对作为支持信息。这些方法主要围绕使用现有实体对来推断关系但它们仍然依赖于事实三元组的可用性来准确地推断关系。此外KGC中很少有作品[14,31,37]试图预测零射击场景中未见关系的缺失三元组。ZSGAN[31]采用生成对抗网络generative adversarial network GAN[16]来推断关系并基于关系的文本描述生成关系嵌入。OntoZSL[14]将本体模式作为先验知识来指导GAN[16]推断看不见的关系。TR-GCN[37]基于本体图和描述对不可见关系的语义表示进行建模。然而与我们提出的模型利用多模态编码器捕获实体对及其对应关系之间的潜在语义相比这些方法依赖于预训练的语言模型或定义良好的先验知识来编码描述。因此它们不能充分利用实体、关系和底层知识图结构之间固有的潜在相关性。
3.预备知识 4.方法
4.1总体架构
MRE的总体框架如图2所示主要包括三个模块Multimodal Learner、Structure consolidation和Relational Embedding Generator。多模态学习者和结构巩固者统一为两阶段的模态融合策略。多模态学习器包括一个联合编码器和解码器融合视觉和文本模式然后结合到基于图卷积网络[25]的结构整合器模块中对知识图结构信息进行编码并与其他模式集成。然后将关系嵌入生成器设计为投影器和鉴别器的结合生成关系嵌入。投影器的目的是将关系描述的编码从联合编码器投影到关系嵌入。投影器和鉴别器进行极大极小博弈以获得精确的关系表示。 图2:MRE培训流水线。在多模态学习器中图像和文本对实体首先通过重建过程进行屏蔽和对齐。然后对多模态信息对进行解掩通过联合编码器的编码过程得到的cls令牌在GNN编码器中初始化并在结构整合器中与KG拓扑融合。关系嵌入生成器根据关系描述编码并生成关系嵌入。
6.结论
在本文中我们提出了一个名为MRE多模态关系外推的新模型用于推断零射击场景中mmkg新发现关系的缺失三元组。具体来说我们设计了一个多模态学习器将视觉和文本模态映射到同一特征空间并对两种模态之间的潜在相关性进行建模。在此基础上提出了一种结构整合策略将多模态学习器和结构整合器统一为两阶段的模态融合策略。然后我们遵循生成对抗网络的原理提出了一种关系嵌入生成器根据新关系的描述学习新关系的精确表示。在两个图数据集上的实验结果证明了该模型在MMKGs零射击关系学习中的有效性优于各种基线方法。但是我们的工作还存在一定的局限性。原始MMKG中的某些实体包含多个相关图像。由于联合编码器中图像和文本输入对的限制我们的模型只利用了其中的一张图像。在未来的工作中我们将利用具有丰富视觉语义的多图像来促进多模态学习。近年来多模态大型语言模型mllm在从不同的数据模态中提取丰富的语义特征方面取得了显著的进展。我们将在未来深入研究应用这些模型来增强我们模型的零射击学习能力。