祥云网站优化,互联网备案服务平台,玉林市网站开发公司电话,网上如何注册公司论文地址#xff1a;Tree-of-Counterfactual Prompting for Zero-Shot Stance Detection - ACL Anthologyhttps://aclanthology.org/2024.acl-long.49/
1. 概述 立场检测被定义为对文本中立场态度的自动推断。根据 Biber 和 Finegan (1988) 的定义#xff0c;立场包含两个主…论文地址Tree-of-Counterfactual Prompting for Zero-Shot Stance Detection - ACL Anthologyhttps://aclanthology.org/2024.acl-long.49/
1. 概述 立场检测被定义为对文本中立场态度的自动推断。根据 Biber 和 Finegan (1988) 的定义立场包含两个主要元素
立场主体Subject立场的表达者如社交媒体用户、演讲者等。立场对象Object立场的针对目标通常包括 话题Topics例如“堕胎”、“气候变化”等具有争议性的名词或短语。交流框架Frames of Communication, FoCs框架用于定义问题成因、道德判断和关注点Entman, 1993。 例如
话题示例 一则关于“堕胎”的社交媒体帖子引用 Mother Teresa 的演讲 “爱意味着愿意付出直到感到痛苦。” 该语境表达了“Reject” 立场即反对堕胎。交流框架示例 关于 COVID-19 疫苗接种的帖子配有讽刺性图像引用电影《无耻混蛋》中的角色 Hans Landa表面上与 FoC 矛盾但结合上下文和图像的讽刺含义最终表达了“Accept”立场。 挑战 立场检测往往依赖于复杂的推理过程包括
上下文理解推断态度需要常识知识与语义分析。多模态融合文本和图像的联合推理增加了任务难度尤其是在讽刺、反讽等特殊语言现象中。
目前的立场检测方法主要分为两类
基于监督学习的分类方法 示例SVM-ngrams、BERT 等基于特征和神经网络的分类模型。局限 泛化能力差仅能在训练过的话题或框架上表现良好无法适应新的立场对象。依赖标注数据需要大量带标签的训练样本成本高昂。零样本立场检测ZSSD 解决了新话题的泛化问题但仍然需要部分立场示例进行训练。示例Allaway McKeown (2020) 提出的跨话题 ZSSD。 为进一步克服上述问题本研究提出了Tabula Rasa 零样本立场检测TR-ZSSD在不需要任何标注示例的前提下进行立场推断。 本研究引入了一个新的立场检测框架名为Tree-of-Counterfactual promptingToC其核心思想基于反事实推理Counterfactual Reasoning。主要流程分为三步
步骤 1反事实树生成Tree-of-Counterfactual 对于给定的社交媒体帖子SMP和立场对象构建一个反事实树
假设立场值为“Accept”“Reject” 和 “No Stance”。为每种立场值生成一个反事实假设形成推理树的分支。 例如给定一个关于“气候变化”的帖子分别假设
Accept 分支帖子表达接受气候变化的观点。Reject 分支帖子表达拒绝气候变化的观点。No Stance 分支帖子未表达任何立场。
步骤 2反事实解释Chain-of-Explanation, CoE 使用大语言模型LLMs或多模态模型LMMs生成每个立场值的详细解释。例如
Accept 立场的解释如何支持气候变化的观点Reject 立场的解释如何反驳气候变化的观点
步骤 3反事实验证Chain-of-Contrastive Verification, CoCV 将所有生成的反事实解释进行对比验证选择最合理的立场值。
比较每个立场分支的优势和劣势。最终选择一个最合理的立场结论。 2. 方法 此 Chain-of-Explanation (CoE) 提示框架指导大型语言模型LLM提供逐步的解释 来自社交媒体帖子的文本内容被插入到“{文本}”部分立场对象的文本表示被插入到“{对象}”部分反事实的立场值被插入到“{立场}”部分。 阶段 C如图 2(C) 所示借鉴了 Chain-of-Verification (CoVe) 提示框架该框架由 Dhuliawala 等人 (2023) 提出。CoVe 提示框架使 LLM 能够对其生成的回答进行反思从而通过内省纠正错误。我们采用阶段 B 生成的反事实推理 作为验证的基准回应并修改验证步骤引入一种 对比验证 形式。 通过这种方式我们创建了反事实链式对比验证 (C-CoCV) 提示框架对阶段 B 生成的反事实推理进行内省并将这些推理的论点与帖子和立场对象 的内容进行对比以验证不同立场值假设的合理性。 可以看出C-CoCV 提示的语义与 CoE 提示的语义相同使得不同的立场对象能够被考虑同时也可以使用社交媒体帖子SMP的文本与图像内容或立场对象的文本内容。 此外由 CoE 提示生成的反事实推理被插入到 “{accept_rationale}”、“{reject_rationale}” 和 “{no_stance_rationale}” 部分中。 ToC 提示的三个阶段利用了大规模语言模型LLMs 的能力针对不同的立场假设生成和评估事后推理促成了一种更具解释性的立场推断机制在这种机制中每个立场假设都会被严格审查其有效性。
3.实验
3.1 实验设置 在本实验中作者设计了三个立场检测设置来评估 ToC-TR-ZSSD 方法。使用了三个不同的标注立场数据集
SemEval-2016 数据来源Twitter 包含五个具有争议性的话题Abortion堕胎、Atheism无神论、Climate Change气候变化、Feminism女权主义和 Hillary Clinton希拉里·克林顿。该数据集已被广泛用于自动立场检测的基准测试特别是 SemEval-2016 的任务 A。CoVaxFrames 数据来源关于 COVID-19 疫苗犹豫的社交媒体帖子。包括 113 个 交流框架Frames of Communication, FoCs。例如 “The COVID vaccine renders pregnancies risky, and it is unsafe for unborn babies”“Preference for getting COVID-19 and fighting it off than getting vaccinated.”数据集主要由文本组成。MMVax-Stance 数据来源多模态数据集包含文本、图像和视频。注释对象与 CoVaxFrames 相同的 113 个 COVID-19 疫苗相关交流框架。数据集面临的挑战需要对文本和多模态内容如图像、视频进行联合推理。 3.2 结果分析
SemEval-2016结果 与多个微调系统进行了比较包括 SVM-ngrams、MITRE 和 pkudblab 的系统。 结果
GPT-3.5 和 GPT-4 在直接提示Direct Prompting下表现不佳但使用 CoT 提示 时GPT-4 取得了显著的性能提升接近微调系统的表现。最高性能TimeLMs 微调系统的宏平均 F1 分数为 72.9GPT-4 使用 ToC 提示接近此结果。
CoVaxFrames 结果使用了多个现有的基准系统包括 SBERT-NLI、DS-BERT、LES-GAT 和 LACRScore。 结果
LACRScore 微调系统取得了 76.2 的宏平均 F1 分数是表现最好的基准系统。 GPT-3.5 和 GPT-4 在直接提示下表现较差但在使用 CoT 提示 后性能显著提升。GPT-4 ToC 提示 的宏平均 F1 分数达到 79.1超过了微调系统。 MMVax-Stance 结果使用了两种大型多模态模型LLaVA-1.5 和 GPT-4V并采用了 直接提示 和 CoT 提示 两种策略。 比较基准系统包括DS-BERT、LES-GAT-MF 和 LACRScore同时考虑了多模态基准如 BLIP-2 和 CLIP-Joint。 结果
LLaVA-1.5 和 GPT-4V 在直接提示下表现不佳但使用 CoT 提示 后性能显著提高。GPT-4V ToC 提示 达到 60.6 的宏平均 F1 分数比 BridgeTower 系统高出近 8 分。 最终的最佳结果来自 BT 该系统通过生成大量合成数据46,606 条示例实现了 71.3 的宏平均 F1 分数数据量比原始数据增加了约 600%。