学院网站建设计划,建设企业网站官网登录,asp.net网站开发书籍,培训行业网站建设文章目录 题目摘要简介KOLA 基准实验评估结论和未来工作道德声明 题目
KOLA#xff1a;仔细对大型语言模型的世界知识进行基准测试 论文地址:https://arxiv.org/abs/2306.09296 项目地址:https://github.com/ranahaani/GNews 摘要 大型语言模型 (LLM) 的卓越性能要求评估方法… 文章目录 题目摘要简介KOLA 基准实验评估结论和未来工作道德声明 题目
KOLA仔细对大型语言模型的世界知识进行基准测试 论文地址:https://arxiv.org/abs/2306.09296 项目地址:https://github.com/ranahaani/GNews 摘要 大型语言模型 (LLM) 的卓越性能要求评估方法不断改进。我们认为细致周到的设计并非仅仅探索 LLM 能力的广度对于全面、公正和适用的评估也至关重要。鉴于世界知识对 LLM 的重要性我们构建了以知识为导向的 LLM 评估基准 (KoLA)其中我们精心设计了三个关键因素1对于能力建模我们模仿人类认知形成与知识相关的能力的四级分类法涵盖 19 项任务。2对于数据为确保公平比较我们同时使用维基百科LLM 普遍预训练的语料库和不断收集的新兴语料库旨在评估处理看不见的数据和不断发展的知识的能力。3对于评估标准我们采用对比系统包括总体标准分数以便在任务和模型之间更好地进行数值比较以及独特的自我对比指标用于自动评估知识创造能力。我们评估了 28 个开源和商业 LLM得到了一些有趣的发现。KoLA 数据集将每三个月更新一次为开发 LLM 和知识系统提供及时的参考。
简介 GPT-4等大型语言模型 (LLM) 最近取得了显著突破引起了广泛的震惊。考虑到 LLM 所展现出的广泛而深刻的自然语言理解和生成能力传统的基准侧重于相对狭窄和肤浅的能力对于测试它们不再那么有用。有必要构建更好的基准以有效地比较 LLM 并提供有价值的诊断结果。为此提出了各种基准重点是扩大评估范围以涵盖更广泛的能力 或更具挑战性的任务。除了扩大评估范围以探索 LLM 能力的广度之外我们认为精心的设计也是必要的以建立有助于深入洞察、对不同 LLM 保持公正、并对有兴趣选择和提升 LLM 的受众具有高度适用性的评估。设计基准需要仔细考虑三个关键因素
能力建模。基准不仅应定义所需能力的范围还应模拟所评估能力之间的内在联系从而为如何获得和提高这些能力提供诊断性洞察。数据。鉴于 LLM 的训练数据范围极其广泛其中可能包括某些任务的注释数据并且通常未公开因此确保确保训练数据的差异不影响评估的公平性是至关重要且具有挑战性的。评估标准。为了获得高适用性评估指标应该使受众能够轻松理解并获得有用的观察结果。此外在评估像生成任务这样具有较大搜索空间的任务时存在许多众所周知的问题。相关能力的评估仍然严重依赖于人工评估这既耗时又不易重现。 在本文中我们提出了一个面向知识的 LLM 评估基准KoLA旨在通过考虑上述三个因素进行细致的设计来仔细基准化 LLM 的世界知识对于能力建模我们评估 LLM 的世界知识并设计一个四级认知能力分类法。我们选择世界知识作为评估范围的原因是
世界知识被广泛认为在LLM的出色表现中发挥着根本性作用而对知识的更深层次掌握使LLM能够更好地帮助人类最近的研究表明理解和生成结构化世界知识对LLM来说仍然具有挑战性。 与以前的工作不同以前的工作侧重于通过涵盖各种任务和学科知识来扩大评估广度以测试LLM的知识边界我们更注重评估的“深度”即对知识相关能力之间的内在联系进行建模并确保可靠的评估结果。受学习理论中人类认知过程的启发如布鲁姆分类法我们将评估的能力分为四个层次知识记忆、知识理解、知识应用和知识创造。这种分类法有助于提供更具体、更有帮助的评估结果详细说明被评估模型可能在哪些知识方面存在不足。它还有助于初步探索LLM和人类学习机制的异同。 为了配合我们后面介绍的数据设计考虑我们选择了19个任务主要关注关于实体、概念和事件的世界知识。对于数据我们获取已知的和不断发展的数据源。一些研究采用未发表或机器不可读的数据来降低测试数据被LLM学习的可能性。然而考虑到LLM之间的激烈竞争这些数据在不久的将来也可能被LLM训练。我们认为理想的方法是对新出现的数据进行评估并保持不断发展的基准就像包括时间敏感的不断发展的数据的尝试一样。在 KoLA我们每三个月举办一个新的比赛赛季。每个赛季我们都会抓取并注释 500 篇最近发表的文章作为不断发展的数据。不断发展的数据源使我们能够
更公平地评估模型即使某些模型可以快速更新其知识从而展示其能力以及更好地跟踪模型开发。除了不断发展的数据外我们还考虑 LLM 的已知数据即所有模型都已学习的数据源。对已知数据的评估使我们能够 (i) 通过比较它们从相同训练数据中获得的不同知识来公平地比较 LLM 的学习效率以及通过比较 LLM 在已知数据和不断发展的数据上的表现来评估泛化能力。我们选择维基百科作为我们的已知数据源因为它很常用。考虑到维基百科的局限性以及我们对不断发展的数据的注释能力我们无法覆盖非常广泛的任务。 对于评估标准我们设计了一个对比评估系统包括一个总体标准分数系统和一个自我对比知识创造指标。传统的基准测试分别报告不同任务的绝对指标。不同任务之间的分数不可比性使得观众难以直观地比较不同能力之间的熟练程度。此外不同指标的敏感度各不相同这可能会导致经验不足的观众误解数字差异所代表的能力差异。在 KoLA 主排行榜中我们报告了不同任务的标准分数这些分数由与其他评估的 LLM 相比的相对水平决定。这使得 KoLA 适用于更广泛的受众。有经验的观众仍然可以参考绝对指标如果需要。此外评估知识创造尤其具有挑战性因为它涉及区分正确创建的知识和知识幻觉。我们设计了一个自我对比指标来评估知识幻觉通过对比在相同开端的情况下自由创建的 LLM 完成和基于知识的完成。该指标消除了写作风格的影响重点关注生成的补全是否与实际呈现的知识一致。 在 KoLA 的前两季中我们评估了 28 个广泛使用的 LLM包括 8 个 API 访问商业 LLM例如 GPT-4和 Cohere-command以及 20 个开源 LLM包括 GLM-130B、LLaMa等。从实验结果中我们得到了一些有趣的观察结果例如较大的基础模型往往会记忆更多的知识对齐释放了较大模型在高级能力方面的潜力但可能会损害记忆开源模型与商业模型相比表现出整体劣势。我们欢迎更多 LLM 参与 KoLA 评估并鼓励为新一季的 KoLA 做出贡献。数据、排行榜、参与信息和支持工具在被接受后将公开。我们希望 KoLA 可以作为一种诊断工具促进知识型 LLM 的发展并帮助从业者选择 LLM。
KOLA 基准 能力建模 在人工智能 (AI) 的背景下知识一直被用来表示包含事实、事件和技能的信息 作为人工智能智能水平的指标。因此提出了各种知识密集型任务来检查语言模型的知识相关能力。最近LLM 的令人印象深刻的表现鼓励开发更全面的基准和广泛的人类受试者测试。认知能力分类法。面对如此庞大的评估数据集我们主张考虑能力的分层和联系而不是离散地组织它们或直接基于学科。几十年来认知科学家也一直坚持这种观点并产生了一系列认知学习理论。考虑到围绕高阶思维的持续争论我们简化并选择了布鲁姆分类法中四个被广泛接受的过程来组织 KoLA 基准中的任务。
知识记忆KM旨在衡量模型忠实回忆已知事实的能力例如先前的知识探测任务。知识理解KU侧重于评估模型理解文本中底层知识的能力例如传统的信息提取任务。知识应用KA反映了代理运用知识完成推理和解决问题的能力。因此该级别通过各种知识推理任务进行评估。知识创造KC表示在已知事实的情况下创造新颖且合理知识的能力。这是通过知识的连贯性和正确性来评估的模型生成内容的评估。值得注意的是评估不仅仅是评估生成质量流畅度等。 数据源和选定任务 已知和不断发展的数据评估 LLM 的一个共同关注点是训练数据的变化带来的公平性问题和潜在的测试数据泄露风险。为了最大限度地减少这些偏差我们建议设计以下独特的数据源
已知数据源。Wikipedia2 是一个公认的高质量语料库包含超过 660 万篇英文文章自 BERT 以来已被许多预训练模型用于预训练并被广泛纳入开放的预训练语料库。因此我们认为假设每个 LLM 都在维基百科上进行过训练是合理的并将其作为我们的已知数据源。考虑到许多 LLM 表示他们只能根据“2021 年之前的内容”提供答案我们选择了 Wikidata 的一个高质量子集 Wikidata5M作为基础它允许链接到 2019 年版的 Wikipedia 转储从而能够选择或重建下游任务的数据集。不断发展的数据源。考虑到模型训练所需的时间新出现的数据不太可能被 LLM 及时训练。因此我们设计了一种不断发展的评估机制该机制不断检索最近 90 天左右发布的网络内容作为数据源并在其上构建新的数据集。这种方法可以确保公平评估 LLM 在看不见的内容上的表现以及它们是否“秘密地”涉及外部搜索等知识更新模块。每次更新我们称之为 KoLA 的一季都需要抓取至少 500 篇文章来支持构建测试集。对于本文报道的第一季我们采用了两种数据事实新闻 4 和虚构小说 5 。我们打算再坚持 4 季约 1 年以及时整合即将到来的顶级 LLM。我们期待持续发布的报告能够为相关研究人员提供进一步的支持。 基于这两个数据源我们最终在 KoLA 中筛选并构建了 19 个任务如表 1 所示。为确保每个季节的注释质量和效率我们在每个级别随机选择一个任务来注释新的进化评估数据集。对于现有的数据集我们尝试确保大多数测试集不公开这种严格的设置确保了高度的公平性。数据收集和任务构建细节见附录 C。下面我们简单介绍一下四个级别的任务。值得注意的是由于数据分布和收集过程的限制模型在进化数据上的绝对数值不一定注定低于已知数据上的绝对数值。 知识记忆任务我们遵循 LAMA通过探究 LLM 中的事实来评估知识记忆但在我们的数据源上重新构建数据集。给定 Wikidata5M中的三元组我们将其转换为具有关系特定模板的句子并让 LLM 完成其尾部实体。此外我们想探索 LLM 的知识记忆是否与训练频率相关。我们根据 Wikidata5M 中的实体在维基百科中出现的频率对其进行排序从而创建了两个测试集
高频知识。从出现频率最高的前 2,000 个实体中随机选择 100 个实体并用它们的三元组构建数据低频知识。同样我们从频率最低的实体中随机选择 100 个实体并构建一个更具挑战性的评估集记忆测试ETM。 从不断发展的数据源中的文章中我们对其中显示的知识三元组进行注释仅保留 100 个无法从以前可用的语料库中推断出来的三元组。知识理解任务知识理解是通过 LLM 能否理解文本中各种类型的知识来评估的包括概念、实体、实体关系、事件和事件关系。2-1/2-2/2-3概念探测采用 COPEN的三个探测任务CSJ、CPJ、CiC来评估模型对概念知识的理解。2-4命名实体识别利用 FewNERD 数据集我们从中在我们的评估中随机选择 300 个示例。2-5关系提取从具有挑战性的文档级关系提取数据集 DocRED 中选择未公开的测试集。2-6事件检测采用精细注释的 MAVEN数据集的未公开测试集。2-7事件关系提取涉及来自 MAVEN-ERE的未公开测试集该集包含 113k 个事件之间的共指、时间、因果和子事件关系的示例。2-8不断发展的理解测试 (ETU)。对于不断发展的数据中的文章我们进行实体识别并遵循与 DocRED 相同的关系模式来注释一个全新的测试集该测试集包含来自 50 篇文章的 100 个关系实例。值得注意的是除了进化测试外其他数据集均基于维基百科文本。 知识应用任务知识应用能力通过 LLM 的多跳推理能力进行评估特别是对世界知识的推理能力。这与最近的几项研究不同这些研究涵盖了更一般的推理例如数学推理。因此KoLA 中包含以下基于维基百科的渐进式数据集3-1HotpotQA是一个问答数据集涉及大量由母语人士编写的自然语言问题比较检查机器的能力、多跳推理等。然而HotpotQA 的一个限制是有些问题可以通过捷径来回答。为了解决这个问题(3-2) 2WikiMultihopQA确保问题不能通过手动设计的模板的捷径来解决但它们的问题在语言上缺乏自然性。此外(3-3) MuSiQue数据集同时解决了捷径和自然性的挑战。它的问题由现有数据集中的简单问题组成最多有四跳的复杂推理。 (3-4) KQA Pro是一个大规模数据集其问题相对复杂允许对 LLM 的多跳推理进行更细粒度的评估包括逻辑运算和修饰符。 (3-5) KoRC 是一个需要文本和知识库联合推理的数据集。 它与上述四个数据集不同因为它需要隐式而不是显式推理。 (3-6) 应用能力演进测试 (ETA) 采用与 KoRC 相同的构建方法在演进数据中的 350 个带注释知识三元组和 40 篇文章上生成 49 个问题。 知识创造任务作为布鲁姆认知分类法的最高级别如何评估知识创造是一个长期存在的开放且具有挑战性的问题。知识创造能力在开放式生成任务中显而易见。传统的文本生成评估指标基于模型生成内容与人工编写参考文献之间的文本相似性这不仅关注知识创造能力还涵盖其他技能例如文本风格和流畅性。理想情况下应该聘请人类评估者来唯一评估模型生成的内容是否包含新颖且合理的知识。然而手动评估各种开放领域知识是劳动密集型的、昂贵的并且缺乏可扩展性。受基于知识的文本生成任务的启发KoLA 提出了一种可行的自动评估协议该协议专门将模型生成的知识与人类参考中的知识进行对比。 表 1KoLA 中的任务第 1 季和第 2 季。粗体指标用于计算标准化分数。独家任务意味着他们的测试集是新开发的或由原作者赞助的未公开披露。测试集和池对应于每个季节使用的测试实例和总体可用实例。 首先我们将生成范围限制为叙事文本例如历史、新闻和小说。这是因为在生成叙事文本中创建的知识明确侧重于设想合理的后续事件并以合理的方式表达它们。如图 2 所示然后我们对参考文本进行人工注释以获得参考细粒度事件知识。注释的事件启用了专用的自对比指标如下所述该指标强调了生成内容中事件知识的质量。与包含许多其他因素的传统文本生成指标相比这种方法可以有效地评估知识创造能力。我们对维基百科文本和不断发展的文章进行了注释构建了两个评估数据集4-1百科知识创造基于 MAVEN 选择的叙述性维基百科文章和4-2开放知识创造基于未见过的新闻和小说作为创造的不断发展的测试ETC。表 1 列出了每个选定任务的特征和统计数据。有关注释过程和任务演示的更多详细信息分别在附录 D 中介绍。 对比评估系统我们的对比评估系统包括基于相对模型比较的标准化总分和独特的自我对比指标可以自动评估知识幻觉并增强生成评估。标准化总体评分。由于不同 KoLA 任务的指标无法比较且敏感度不同经验较少的受众无法轻松地比较和解释结果这在最近的 LLM 基准测试中也很普遍例如 Big-Bench-Hard和 MMLU。因此我们建议引入标准化分数以增强 KoLA 结果的适用性。具体而言给定任务集 D {di} |D| i1 和评估模型集 M {mj} |M| j1我们首先为每个任务选择最具代表性的指标从而让我们计算模型 mj 在任务 di 上的性能得分 xij。然后可以计算标准化分数 z 为 其中µ·和σ·表示平均值和标准差。随后我们应用Min-Max缩放将所有结果调整到[0,100]的范围进一步增强了跨任务分数的相关性和可读性。最终得分表示为 其中函数maxz和minz对应于所有zij分数的最大值和最小值。 自我对比指标。评估知识创造不仅要评估生成质量更要评估生成的知识是否真实合理即避免知识幻觉。我们为此开发了一个独特的自我对比指标该指标通过对比由同一模型生成的两个完成来定义。 如图2所示C表示给定的先前上下文R表示人类书写的后续补全K表示R中标注的事件知识。每个模型需要生成两个补全a仅给定上下文C生成一个补全T这需要模型自由想象可能发生的事件并且可能产生知识幻觉如图2中的谈判事件b给定上下文C和预知K生成另一个补全Tk这只需要模型合理地组合给定的事件。如果T和Tk表现出很强的相似性则意味着该模型可以创建高度合理的事件这些事件与人类提供的参考一致并且知识幻觉较少。这种自我对比方法的显著优势在于由于两个补全都是由同一个模型生成的因此写作风格等知识创造之外的因素很可能保持一致从而将其对评估的影响降至最低。此外为了更全面地涵盖知识创造能力防止模型忽略知识创造能力而导致评估崩溃过程b提示中的知识K整体知识创造分数定义为多个对比的混合 其中 avg (·) 表示平均值。函数 ∂ (·) 用来计算两个文本的相似度在本文中我们采用了广泛使用的 Rouge-L (F1)。∂ (T, R) 是传统的文本生成指标。虽然它涵盖了广泛的知识创造能力涵盖事件之外的多种知识类型但它也包括与知识创造无关的不良因素例如写作风格和文本流畅性。因此我们添加了 ∂ (T, Tk) 和 ∂ (Tk, R) 来强调创造与事件相关的知识的能力这对于生成叙述文本非常重要。∂ (T, Tk) 是新提出的自对比指标关注生成的事件知识是否合理。 ∂ (Tk, R) 的灵感来自基于知识的生成任务。它反映了创造有关事件之间关系的知识的能力这是将给定事件合理地组合成故事所必需的。例如图 2 中的 Tk 意味着西蒙·德·蒙福特的死亡导致叛军在战斗中失败而这是一种与 R 中的叙述不一致的幻觉因果关系。 实验评估 在 KoLA 的前两季中我们评估了两类 LLM1开源模型包括 GPT-J (6B) 、GPT-JT (6B) 、GPT-NeoX (20B)、BLOOM (7B) 、T0 (11B)、LLaMa (65B) 、GLM (130B)、UL2 (20B) 、FLAN-T5 (11B) 、FLAN-UL2 (20B) 、Alpaca (7B)、ChatGLM (6B)、Dolly-v2 (12B)、RedPajamaInstruct (7B)、Tulu (7B)、Vicuna (13B)、 a2-chat (7B)、ChatGLM2-32k (6B)、Internlm-chat-8k (7B) 2API 服务GPT-3 curie v1 (6.7B)6 和 davinci v1 (175B)、InstructGPT curie v1 (6.7B*)6 和 davinci v2 (175B*)、ChatGLM (130B)、Cohere-command (52.4B)7 、J2-Jumbo-Instruct (178B*) 、GPT3.5-turbo6 和 GPT-4 。*表示大小尚未确认。整体表现。我们在表 2 和表 3 中报告了所有模型的标准化分数其中“—”表示由于输入长于模型上下文长度而导致结果不可用。所有结果均来自第二季2023 年 9 月与第一季2023 年 6 月附录 F排名的比较显示在“排名”栏中。尽管不同层级的排名总体一致但我们仍然可以从结果中得到一些有趣的发现
对于没有对齐或指令调优的模型例如 GPT-J 和 BLOOM知识记忆KM的排名与模型大小之间存在很强的相关性Spearman 系数为 0.79。这表明模型大小对记忆见过的知识有明显的正向影响这证实了先前研究中的一些观点。经过指令调优后的模型高级能力与模型大小的相关性显著提升以 KA 为例其 Spearman 系数从 0.02 变为 0.53。这表明对齐释放了 LLM 在高级能力方面的更大潜力。然而大小与低级 KM 性能之间的相关性呈现下降趋势0.34这可能证明了广泛讨论的“对齐税”。与 GPT4 和 GPT-3.5-turbo 等商业闭源模型相比开源模型的性能仍然存在明显差距。开源模型的平均 z 分数为 -0.29低于整体平均水平。将第二季的结果与第一季的结果进行比较大多数开源模型的排名都有所下降。这表明从长远来看静态开源模型难以与可能持续更新的商业模型保持相当的水平。开源社区应倡导更强有力的合作以支持对未来研究目的至关重要的更大、最新的模型。
设计分析。我们进一步讨论了 KoLA 设计因素带来的几个新观察结果。 首先各个层级内的任务之间具有较高的相关性表明LLM的能力确实具有某种内在的层级结构。知识记忆KM层级与其他层级表现出显著的相关性尤其是与理解层级中的概念任务2-1、2-2、2-3以及应用层级中的推理任务3-1至3-5这表明这些高级任务严重依赖于知识记忆。此外为了对LLM在高阶认知任务中的能力进行更分离的评估仍然建议设计与预训练语料库表现出较大差异的任务以减轻来自数据的潜在偏差。 其次模型在演化和非演化任务上的结果显示出明显的线性相关性表明我们构建的演化数据集的可靠性。已知数据和演化数据之间的性能差距在较浅的层次KM、KU中更为明显而在较高级任务KA、KC中则不那么明显。独立同分布和分布外演化设置之间的性能收敛表明模型的泛化能力可能得到增强可能支持关于模型获得了超越简单数据拟合的发散和推理能力的观点。第三我们对知识创建任务中的结果进行手动注释附录 F.1 了解有关注释设置和结果的更多详细信息其中每个注释者都需要阅读上下文 C 和预知 K然后从两个方面评估模型的输出 T整体质量和忠实度。评分按 1最差评分到 5最好评分的等级分配。我们计算了手动注释结果与§2.3中介绍的指标之间的Spearman相关性。我们发现自我对比指标∂TTk与创作内容的忠实度之间存在显着的相关性0.61而从等式3中的整体指标x中删除自我对比指标会导致与人类判断的整体质量的相关性显着下降32。我们相信这个指标可以为未来对生成能力评估的探索做出贡献。 结论和未来工作 本文介绍了KoLA这是一个精心设计的面向知识的LLM评估基准。我们设计了一个认知能力分类法以获得更有用的诊断结果采用已知和不断发展的数据源以提高公平性并采用对比指标以提高适用性。在 KoLA 的第一季中我们评估了 28 个公开和商业的 LLM并得到了一些有趣的发现例如更大的模型往往会记住更多的知识而对齐可以释放更高级能力的潜力但可能会损害低级知识的记忆等。在未来我们将继续举办更多季的 KoLA以促进知识型 LLM 的发展帮助选择开发知识相关应用程序的主干并通过不断发展的评估跟踪 LLM 的发展。KoLA 将始终欢迎开放的参与和贡献。
道德声明 在本节中我们讨论了有关数据构建的道德考虑因素并将更广泛的影响留到附录 A.2。 (1) 数据风险控制。对于收集到的演化数据源我们过滤掉了不适合向普通观众展示的内容相关细节在附录C.1中列出。七位作者手动检查了所有新构建的演化测试数据集以及KoLA中包含的所有先前发布的数据集的随机样本。没有发现任何个人身份信息、歧视性内容、露骨、暴力或冒犯性内容。2注释者待遇和同意。 我们聘请众包注释者来注释演化测试数据并进行人工评估以创造知识。详细信息在附录C.2中介绍。我们与所有注释者签订了工作合同并根据双方商定的工资标准和工作时间提供报酬。所有就业安排均符合当地法规。3版权。我们已知的数据来源是维基百科它在CC BY-SA 3.08下获得许可允许免费用于研究。对于KoLA中包含的所有先前发布的数据集。我们的演化数据源包含公开新闻和小说。新闻数据来自《卫报》9我们严格遵守条款和条件10 访问这些数据。小说数据来自同人小说档案网站 Archive of Our Own (AO3)。尽管 AO3 数据已在之前的一些作品中使用但其版权状态仍存在一些模糊性。我们认为使用 AO3 是恰当的因为
AO3 对数据抓取持开放态度12。我们承诺 KoLA 将始终保持非商业和非营利性并且我们不会重新分发抓取的数据我们的平台仅提供样本。 根据 AO3 的运营商 Organization for Transformative Works 提供的描述13此类使用在美国版权法的背景下属于合理使用。可重复性声明 为了提高可重复性我们在附录 C 中提供了有关数据收集的详细信息在附录 D 中提供了所有使用的任务说明并在附录 E 中提供了实验细节。所有任务的评估源代码和数据样本都作为补充材料提交。未来几季的结果将在 Github 和我们的平台网站上展示。