当前位置：首页 > news >正文

利用网站宣传两学一做wordpress基础模板

news 2026/4/9 8:44:26

利用网站宣传两学一做,wordpress基础模板,app定制大概多少钱,百度投放广告一天多少钱夕小瑶科技说原创作者 |智商掉了一地、Python自然语言推理#xff08;Natural Language Inference#xff0c;NLI#xff09;是自然语言处理中一项重要任务#xff0c;其目标是根据给定的前提和假设#xff0c;来判断假设是否可以从前提中推断出来。然而#xff0c;由于… 夕小瑶科技说原创作者 |智商掉了一地、Python自然语言推理Natural Language InferenceNLI是自然语言处理中一项重要任务其目标是根据给定的前提和假设来判断假设是否可以从前提中推断出来。然而由于歧义是自然语言内在的特征处理歧义也是人类语言理解的重要组成部分。由于人类语言表达的多样性歧义处理成为解决自然语言推理问题的难点之一。当前各种自然语言处理算法被应用到问答系统、语音识别、智能翻译和自然语言生成等场景中但即使有这些技术完全解决歧义仍然是一个极具挑战性的任务。对于 NLI 任务大型自然语言处理模型如 GPT-4 等确实面临着挑战。其中一个问题是语言歧义导致模型难以准确理解句子的真正含义。此外由于自然语言的灵活性和多样性不同文本之间可能存在各种各样的关系这使得 NLI 任务中的数据集变得极其复杂同时也对自然语言处理模型的普适性和泛化能力提出了巨大挑战。因此在处理歧义语言方面如果今后大模型成功将显得至关重要并且大模型已被广泛应用于对话界面和写作辅助工具等领域。处理歧义将有助于适应不同的背景提高沟通的清晰性以及识别误导性或欺骗性言语的能力。这篇讨论大模型歧义的论文标题使用了一语双关的表达“We’re Afraid…”既表达了当前对语言模型难以准确建模歧义的担忧又暗示了论文所描述的语言结构。本文也表明人们正在努力制定新的基准以真正挑战强大的新的大模型以便更准确地理解和生成自然语言并实现模型上的新突破。论文题目: Were Afraid Language Models Arent Modeling Ambiguity 论文链接: https://arxiv.org/abs/2304.14399 代码和数据地址: https://github.com/alisawuffles/ambient 文章速览本文作者计划研究预训练大模型是否有能力识别和区分含有多个可能解释的句子评估模型如何区分不同的读法和解释。然而现有的基准测试数据通常不包含歧义的例子因此需要自己构建实验来探究这个问题。传统的 NLI 三路标注方案指的是一种用于自然语言推理NLI任务的标注方式它需要标注者在三个标签中选择一个标签来表示原始文本和假设之间的关系。这三个标签通常是“蕴含entailment”、“中立neutral”和“矛盾contradiction”。作者使用了 NLI 任务的格式来进行实验采用了函数式方法通过对前提或假设中的歧义对蕴含关系的影响来表征歧义。作者提出了一个名为 AMBIENTAmbiguity in Entailment的基准测试涵盖了各种词汇、句法和语用歧义并更广泛地涵盖了可能传达多个不同信息的句子。如图 1 所示歧义可能是无意识的误解图 1 顶部也可能是故意用来误导听众的图 1 底部。例如如果猫离开家后迷失方向那么从无法找到回家的路线的意义上看它是迷路了蕴涵边如果它已经好几天没有回家那么从其他人无法找到它的意义上看它也是迷路了中立边。 ▲图1 用猫迷路解释的歧义示例 AMBIENT 数据集介绍精选示例作者提供了 1645 个涵盖多种类型歧义的句子样例其中包括手写样本和来自现有NLI数据集和语言学教材。AMBIENT 中的每个示例都包含一组标签对应于各种可能的理解以及每种理解的消歧重写如表 1 所示。 ▲表1 精选示例中的前提和假设对生成的示例研究人员还采用了过度生成和过滤的方法来构建一个大型的未带标签的 NLI 示例语料库以更全面地涵盖不同的歧义情况。他们受到前人工作的启发自动识别共享推理模式的前提假设对组并通过鼓励创建具有相同模式的新示例来加强语料库的质量。注释和验证针对先前步骤获得的例子需要进行注释和标注。这一过程涉及到了两位专家的注释、一位专家的验证和汇总以及部分作者的验证。同时37 名语言学专业的学生为每个例子选择了一组标签并提供了消歧重写。所有这些被注释后的例子经过筛选和验证最终得到了 1503 个最终的例子。具体过程如图 2 所示首先使用 InstructGPT 创建未带标签的示例再由两位语言学家独立进行注释。最后通过一位作者的整合得到最终的注释和标注。 ▲图2 AMBIENT 中生成示例的注释流程此外这里还探讨了不同标注者之间标注结果的一致性问题以及 AMBIENT 数据集中存在的歧义类型。作者在该数据集中随机选择了 100 个样本作为开发集其余样本用作测试集图 3 是其中集合标签的分布情况每个样本都具有对应的推理关系标签。研究表明在歧义情况下多个标注者的标注结果具有一致性使用多个标注者的联合结果可以提高标注准确性。 ▲图3 AMBIENT 中集合标签的分布歧义是否说明了“不同意” 该研究分析了在传统的 NLI 三路标注方案下标注者在对含歧义输入进行标注时的行为。研究发现标注者可以意识到歧义并且歧义是导致标签差异的主要原因因此挑战了“不同意”是模拟例子不确定性的流行假设。在研究中采用 AMBIENT 数据集雇佣了 9 名众包工作者对每个含歧义的例子进行标注。任务分为三步标注含歧义的例子识别可能的不同解释标注已消除歧义的例子其中步骤 2 中三个可能的解释包括两个可能的意思和一个类似但不完全相同的句子。最后对每个可能的解释都将其代入原始例子得到三个新的 NLI 例子让标注者分别选择一个标签。此实验的结果支持了假设在单标注体系下原始的模糊例子会产生高度不一致的结果即在给句子打标签的过程中人们对于模糊不清的句子容易产生不同的判断导致结果不一致。但是当在任务中加入消除歧义的步骤后注释员们普遍能够识别并验证句子的多种可能性结果的不一致性得到了大幅度解决。因此消除歧义是减少注释员主观性对结果影响的有效方法。评估大模型上的表现 Q1. 能否直接生成与消歧有关的内容该部分重点在于测试语言模型在上下文中直接生成消歧和对应标签的学习能力。为此作者构建了一个自然提示并使用自动评估和人工评估来验证模型的表现如表 2 所示。 ▲表2 当前提不明确时用于生成歧义消除任务的 few-shot 模板在测试中每个示例都有 4 个其他测试示例作为上下文并使用 EDIT-F1 指标和人工评估来计算得分和正确性。实验结果如表 3 显示GPT-4 在测试中表现最佳实现了18.0%的 EDIT-F1 得分和 32.0% 的人工评估正确性。此外还观察到大模型在消歧时常常采用加入额外上下文的策略来直接确认或否定假设。不过需要注意的是人工评估可能会高估模型准确报告歧义来源的能力。 ▲表3 大模型在 AMBIENT 上的性能 Q2. 能否识别出合理解释的有效性该部分主要研究了大模型在识别含有歧义的句子时的表现。通过创建一系列真假陈述模板并对模型进行 zero-shot 测试研究人员评估了大模型在选择正误之间的预测中的表现。实验结果表明最佳模型是 GPT-4然而在考虑歧义性的情况下GPT-4 在回答所有四个模板的歧义解释中的表现比随机猜测的准确率还低。此外大模型在问题上存在一致性问题对于同一个歧义句子的不同解释对模型可能会出现内部矛盾的情况。这些发现提示我们需要进一步研究如何提高大模型对含有歧义的句子的理解能力并更好地评估大模型的性能。 Q3. 通过不同解释模拟开放式连续生成这一部分主要研究基于语言模型的歧义理解能力。通过给定上下文对语言模型进行测试比较模型对于不同可能解释下的文本延续的预测。为了衡量模型对于歧义的处理能力研究人员通过在相应语境下比较模型在给定歧义和给定正确语境下所产生的概率和期望差异用 KL 散度来衡量模型的“惊奇度”并且引入随机替换名词的“干扰句”来进一步测试模型的能力。实验结果表明FLAN-T5 的正确率最高但不同测试套件LS 涉及同义词替换PC 涉及拼写错误的修正SSD 涉及语法结构修正和不同模型的表现结果不一致说明歧义仍然是模型的一个严重挑战。多标签 NLI 模型实验如表 4 所示在已有带有标签变化的数据上微调 NLI 模型仍有较大提升空间特别是多标签 NLI 任务中。 ▲表4 多标签 NLI 模型在 AMBIENT 上的性能检测误导性的政治言论这项实验研究了对政治言论的不同理解方式证明了对不同理解方式敏感的模型可被有效利用。研究结果如表 5 所示针对有歧义的句子一些解释性的释义可以自然而然地消除歧义因为这些释义只能保留歧义或者明确表达一个特定的意义。 ▲表5 本文检测方法标记为有歧义的政治言论此外针对这种预测的释义可以揭示歧义的根源。通过进一步分析误报的结果作者还发现了很多事实核查中没有提到的歧义说明这些工具在预防误解方面具有很大的潜力。小结如同本文中所指出的那样自然语言的歧义性将是模型优化中的一个关键挑战。我们期待未来的技术发展中自然语言理解模型能够更加准确地识别文本中的上下文和重点并在处理歧义性文本时表现出更高的敏感度。尽管我们已经建立了评估自然语言处理模型识别歧义的基准并能够更好地了解模型在这个领域中的局限性但这仍然是一个非常具有挑战性的任务。我们期待能够出现更为复杂、准确的自然语言理解模型它将有助于我们更全面地理解人类语言从而使得 AI 的应用更为广泛。期待在未来的技术发展中聊天机器人将成为我们真正的朋友能够更好地理解我们的需求并提供更智能化的推荐和回答~

查看全文

http://www.w-s-a.com/news/338364/