苏州网站建设专业的公司,凡客做网站怎么样,中国建设银行深圳招聘信息网站,网站服务器部署大语言模型#xff08;LLMs#xff09;有着强大的摘要生成能力#xff0c;为信息快速提取和处理提供了便利。从新闻文章的快速概览到学术文献的要点提炼#xff0c;LLMs 生成的摘要广泛应用于各个场景。然而#xff0c;准确评估这些摘要的质量却颇具挑战。如何确定一个摘要…大语言模型LLMs有着强大的摘要生成能力为信息快速提取和处理提供了便利。从新闻文章的快速概览到学术文献的要点提炼LLMs 生成的摘要广泛应用于各个场景。然而准确评估这些摘要的质量却颇具挑战。如何确定一个摘要是否精准、简洁且连贯成为了研究者和开发者亟待解决的问题。本文将深入探讨评估 LLMAgent-as-a-JudgeAI系统评估新思路 摘要的多种方法、面临的挑战以及应对策略。 一、评估 LLM 摘要的重要性
随着 LLMs 在摘要生成任务中的应用日益广泛评估其生成摘要的质量至关重要。优质的摘要能够帮助用户迅速把握文本核心内容节省大量阅读时间。在学术研究中研究者可以通过准确的文献摘要快速筛选相关资料在商业领域决策者能够依据精准的行业报告摘要做出明智的决策。相反低质量的摘要可能会误导用户导致信息获取错误甚至影响决策的准确性。准确评估 LLM 摘要RAG(Retrieval-Augmented Generation)评测评估LLM中的幻觉现象不仅有助于用户选择更可靠的摘要工具还能推动 LLMs 自身的优化与改进促进自然语言处理技术的发展。
二、评估 LLM 摘要的难点
一摘要输出的开放性与主观性
与分类、实体提取等任务不同摘要的输出具有开放性。一个好的摘要取决于流畅性、连贯性和一致性等定性指标而这些指标难以进行定量测量。例如摘要的相关性在很大程度上依赖于具体语境和受众需求。对于专业人士而言与专业知识紧密相关的内容才是关键而普通读者可能更关注通俗易懂的信息。这种主观性使得评估标准难以统一增加了评估的难度。
二缺乏高质量的标注数据集
在评估 LLM 摘要时创建用于对比的金标准数据集十分困难。以检索增强生成RAG为例可以通过合成问答对的方式轻松创建数据集来评估检索器。但对于摘要生成任务自动生成参考摘要并非易事往往需要人工标注。虽然已有研究人员整理了一些摘要数据集但这些数据集可能无法满足特定应用场景的需求导致评估结果与实际应用存在偏差。
三现有评估指标的局限性
学术文献中的许多摘要评估指标并不适用于实际开发场景。一些基于神经网络训练的评估指标如 Seahorse、Summac 等模型体积庞大运行成本高昂难以大规模应用。而传统的评估指标如 BLEU 和 ROUGE主要基于精确的单词或短语匹配适用于抽取式摘要评估。在面对 LLMs 生成的抽象式摘要时由于这类摘要可能会对原文进行改写和重新表述这些传统指标的评估效果不佳。
三、优秀摘要的关键特质
尽管评估 LLM 摘要存在诸多困难但一个优秀的摘要通常具备以下关键特质
一相关性
摘要应保留原文的重要观点和细节能够准确反映原文的核心内容。在评估时可以从精确率和召回率的角度考虑即摘要中保留了多少原文的事实召回率以及摘要中的事实有多少能在原文中得到支持精确率。在保持摘要长度一定的情况下召回率越高越好但不能为了追求高召回率而使摘要长度与原文相近同时精确率应尽可能接近 100%以避免生成虚假信息。
二简洁性
优秀的摘要信息密度高不会多次重复相同观点语言简洁明了。在实际评估中可以通过实体密度这一指标来衡量。研究表明人工创建的摘要以及人们偏好的 AI 生成摘要实体密度约为 0.15 个实体 / 词元。偏离这一数值的摘要无论是密度过高还是过低都可能存在问题。可以通过计算摘要的实体密度并与理想值进行比较对偏离理想值的摘要进行惩罚。还可以使用句子模糊度指标对模糊、未明确表述关键信息的句子进行惩罚以确保摘要简洁有效。
三连贯性
摘要应结构合理、逻辑清晰易于理解而不是简单地堆砌压缩后的事实。在评估连贯性时可以采用平均余弦相似度的方法计算每第 n 个句子和第 n2 个句子之间的平均余弦相似度。该数值越高表明摘要的连贯性越好。通过这种方式可以从量化的角度对摘要的连贯性进行评估。
四忠实性
摘要不能虚构原文未提及的信息必须忠实于原文内容。在评估过程中需要确保摘要中的所有信息都能在原文中找到依据避免出现虚假信息这对于保证摘要的可靠性至关重要。
四、DeepEval 框架及其摘要评估指标
DeepEval 是一个用户友好的 LLM 评估框架在摘要评估方面具有一定的优势。它提供了许多关键 RAG 指标的现成实现并且拥有灵活的基于思维链的 LLM 评判工具 GEval方便用户定义自定义标准。其基础设施有助于组织和加速评估过程能够快速在整个数据集上运行评估。
DeepEval 的摘要评估指标是一种无参考指标只需输入原文和待评估的生成摘要。该指标实际上评估了两个关键部分对齐度和覆盖率。在对齐度评估中评估器 LLM 会从摘要中生成一系列声明并判断这些声明在从原文提取的事实中得到支持的数量从而得出对齐度分数在覆盖率评估中LLM 会从原文生成一系列评估问题然后仅依据摘要尝试回答这些问题。若无法找到答案则提示 “idk”最后根据回答正确的问题数量得出覆盖率分数。最终的摘要分数为对齐度和覆盖率分数中的最小值。
五、改进 DeepEval 的摘要评估指标
尽管 DeepEval 的摘要评估指标提供了一个良好的起点但仍存在一些问题影响了评估的可靠性和有效性。
一覆盖率评估问题
当前覆盖率评估中的问题被限制为是非问题这种方式存在局限性。一方面二元的是非问题限制了信息的表达难以确定细微的定性要点另一方面若回答问题的 LLM 虚构了 “是” 的答案评估器可能会错误地认为回答正确。因为在只有 “是”“否”“idk” 三种可能答案的情况下虚构 “是” 的答案的可能性较高。此外问题的表述方式可能会暗示答案为 “是”进一步增加了虚构答案的风险。
针对这一问题可以让 LLM 从原文生成开放式问题即 “复杂问题”并为每个问题赋予重要性评分。在评估时使用另一个 LLM 对基于摘要生成的答案与基于原文生成的参考答案进行 0 - 5 分的相似度评分并给出解释以此来更准确地评估覆盖率。
二对齐度评估问题
在对齐度评估中从原文提取事实的过程存在缺陷。当前使用 LLM 从原文提取事实列表时会导致部分事实被遗漏。而且LLM 生成的事实列表具有不确定性这会导致对齐度分数波动较大无法公平地评判摘要的忠实性。例如即使摘要中的某个细节在原文中存在但如果未被提取到事实列表中也可能被误判为不忠实。
为解决这一问题可将整个原文输入到评估摘要声明的 LLM 中而不是仅输入提取的事实列表。这样在一次 LLM 调用中评估所有声明既能保证评估的准确性又不会显著增加令牌成本。
三最终分数计算问题
目前最终分数取对齐度和覆盖率分数中的最小值这可能会导致问题。由于覆盖率分数通常较低即使对齐度分数发生较大变化如从 1 降至 0.8也可能不会影响最终分数。然而对齐度分数的下降可能意味着摘要存在严重问题如虚构声明。
为解决此问题可以将最终分数改为 F1 分数类似于机器学习分类中的 F1 分数计算方式以综合考虑精确率和召回率的重要性。还可以根据实际需求调整精确率和召回率的权重例如若非常重视避免虚构信息则可以提高精确率的权重。
六、综合评估指标体系的构建
在改进 DeepEval 摘要评估指标的基础上可以进一步构建一个综合评估指标体系。除了上述改进的相关性和忠实性评估指标外还应纳入简洁性和连贯性评估指标。
一简洁性评估指标 实体密度 通过计算摘要中实体数量与词元数量的比值得到实体密度。与理想的实体密度 0.15 进行比较对偏离该值的摘要进行惩罚。当实体密度过高时摘要可能过于复杂实体密度过低则可能信息不足。 句子模糊度 将摘要拆分为句子使用 LLM 对每个句子进行分类判断其是否模糊。模糊句子是指未直接提及主要观点、使用模糊表述的句子。最终以模糊句子在总句子中的比例作为句子模糊度分数该分数越高说明摘要中模糊信息越多简洁性越差。 重复性 利用 GEval 工具以 LLM 作为评判器判断摘要中是否存在不必要的重复信息。若存在重复的事实或主要观点则认为摘要存在问题。在实际应用中由于 LLM 的回答可能不稳定需要进行提示工程优化以提高评估的准确性。
二连贯性评估指标
采用平均余弦相似度方法计算每第 n 个句子和第 n2 个句子之间的平均余弦相似度。通过将句子转换为向量计算向量之间的余弦相似度进而得到连贯性分数。该分数越高表明摘要中句子之间的逻辑联系越紧密连贯性越好。
将这些评估指标整合为自定义指标后可以在数据集上并行评估一次性获取所有结果。但需要注意的是对于一些指标如连贯性和召回率目前难以确定其对于摘要的 “最优” 值只能通过比较不同 AI 生成摘要的分数来判断其优劣。
评估 LLM 摘要生成能力是一个复杂且具有挑战性的任务需要综合考虑多个方面的因素。从摘要的相关性、简洁性、连贯性和忠实性等特质出发改进现有评估指标构建综合评估体系能够更准确地评估 LLM 摘要的质量。然而目前的评估方法仍存在一些不足之处如部分指标缺乏明确的最优值评估结果可能受到 LLM 本身的不确定性影响等。
未来随着自然语言处理技术的不断发展有望出现更先进的评估方法和技术。一方面可以进一步优化评估指标结合更多语义理解和上下文信息提高评估的准确性另一方面探索更有效的数据集创建方法减少人工标注的工作量提高标注质量。还可以研究如何更好地利用多模态MiniCPM-o 2.6开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5信息如图片、音频等辅助评估摘要质量。