当前位置：首页 > news >正文

怎么做可以访问网站ui设计自学学的出来吗

news 2026/7/27 13:38:57

怎么做可以访问网站,ui设计自学学的出来吗,嵌入式软件开发流程规范,唐山滦县网站建设文章目录题目摘要相关工作CG-Eval实验题目评估大型中文语言模型的生成能力论文地址#xff1a;https://arxiv.org/abs/2308.04823 项目地址#xff1a;http://cgeval.besteasy.com/ 摘要本文介绍了 CG-Eval#xff0c;这是有史以来第一个全面的自动化评估框架#xf… 文章目录题目摘要相关工作CG-Eval实验题目评估大型中文语言模型的生成能力论文地址https://arxiv.org/abs/2308.04823 项目地址http://cgeval.besteasy.com/ 摘要本文介绍了 CG-Eval这是有史以来第一个全面的自动化评估框架旨在评估跨学科的大型中文语言模型的生成能力。CG-Eval 以其自动化流程脱颖而出该流程基于模型在六个关键领域内生成精确且与上下文相关的各种问题的答案的能力对模型进行严格评估科学与工程、人文与社会科学、数学计算、执业医师资格考试、司法考试和注册会计师考试。除此之外我们还推出了 Gscore这是一个由多个指标的加权总和开发的创新综合指数。Gscore 独特地根据参考标准自动测量模型的文本生成质量提供对模型性能的详细和细致的评估。这种自动化不仅提高了评估过程的效率和可扩展性而且还确保了对各种模型的客观和一致的评估。大规模语言模型的出现预示着自然语言处理领域的新纪元其特点是具有前所未有的理解和生成复杂文本的能力。这一现象最初由 ChatGPT等模型推广并导致了学术研究和行业应用的重大转变。在这一发展之后中文大规模语言模型显著涌现涵盖开源和闭源领域。这些模型例如 ERNIE Bot、Spark Desk、等引入了数千亿个参数有望在不同的语言和文化背景下增强文本生成能力。然而在系统评估这些模型方面仍然存在一个关键的差距特别是在它们满足不同学科的细微需求的能力方面。本文介绍了 CG-Eval这是一个开创性的评估框架专门用于填补大型中文语言模型评估中的一个关键空白。与 MMLU 等主要通过多项选择题形式关注理解能力的传统基准不同CG-Eval 通过全面评估生成能力开辟了新局面。我们的框架涵盖了广泛的学科集中在六个主要领域科学与工程、人文与社会科学、数学计算、执业医师资格考试、司法考试和注册会计师考试。CG-Eval 的创新之处在于其全面的方法——评估模型而不仅仅是语言理解。它深入研究模型生成精确、上下文相关和学科特定响应的能力从而更全面地了解它们的能力。此外我们引入了 Gscore这是一种新颖的综合指数旨在根据参考标准客观地衡量模型生成的文本的质量。 Gscore 代表了多种评估标准的综合这些标准经过加权以捕捉模型性能的不同方面。该指标是一个重大飞跃超越了传统的以理解为重点的评估以评估文本生成的细节方面。CG-Eval 的一个关键特点是其快速、自动化的评估过程。这种自动化不仅加快了评估周期使对各种模型进行广泛的评估成为可能而且还确保了高度的客观性不受人为偏见的影响。通CG-Eval 解决了现有评估方法的差距对优势和劣势提供了深刻的分析当前汉语语言模型的局限性。相关工作为了评估这些实质性的汉语语言模型的性能已经相继推出了几个专门为它们设计的基准和数据集。其中包括 2023 年 4 月 25 日发布的 MMCU数据集、2023 年 5 月 9 日发布的 SuperCLUE 基准、2023 年 5 月 15 日发布的 C-Eval基准、2023 年 5 月 17 日发布的 M3KE基准、2023 年 5 月 21 日发布的 GAOKAO-Bench、2023 年 6 月 9 日发布的獬豸、2023 年 6 月 10 日发布的天秤大型语言模型评估框架以及 2023 年推出的 CMMLU2023 年 6 月 15 日。MMCU 数据集首先采用 8 个学科的 3,331 道高考选择题来衡量模型对世界的基本理解。随后它使用 2,819、3,695 和 2,001 道多项选择题来衡量中文大型语言模型在医学、法律和心理学等专业垂直领域的专业知识。数据集中的问题和答案都是公开的旨在促进中文大型模型的开发和评估。与 MMCU不同SuperCLUE 基准的细节仍未公开因为既没有提供数据集也没有提供评估代码。C-Eval 基准采用多项选择题格式进行评估包含 52 个学科的 13,948 个问题。虽然这套试题可供下载但研究人员需要将模型答案上传到评估网站进行自动评分。M3KE 基准包含 20,477 道多项选择题涵盖 71 项任务。目前只有试题可用答案不公开。有兴趣评估的人必须与 M3KE 团队联系。GAOKAO-Bench汇编了 2010 年至 2022 年全国高考的试题包括 1,781 道客观题和 1,030 道主观题。评估分为客观题的自动评估和主观题的专家评审评分。獬豸包含 13 个类别、516 个主题和总共 249,587 道多项选择题但该数据集只有一小部分可供公众使用。FlagEval天秤基准主要使用 Chinese_MMLU从英文 MMLU数据集翻译而来、C-Eval和 GaoKao2023 作为其中文多项选择题数据集。此外还有一个基于中国语言学与认知挑战数据集的开放式问题部分。它由两部分组成CLCC-H其中 190 道问题通过人工判断进行评估CLCC-G由 GPT-4 根据评估维度生成 550 个问题随后由人工策展人进行完善。CLCC-G 的评估结果由 GPT-4 自动生成。此外FlagEval天秤模型评估需要注册和申请。最后CMMLU包含 11,528 个多项选择题涵盖 67 个科目可公开下载。总之在可用的基准中只有 MMCU 、C-Eval 和 CMMLU 提供带有自动评估的开放数据集。值得注意的是C-Eval 不公开其答案需要研究人员上传问题的模型答案才能获得自动评分。 MMCU和CMMLU都公开分享问题和答案方便中文大型模型领域的研究人员评估和改进他们的系统。然而值得注意的是所有这些基准测试主要侧重于评估中文的理解能力而不是专门用于评估生成能力。评估任务只使用多项选择题其中模型要么直接生成答案要么产生潜在答案选项的概率分布。这种评估模式似乎主要从MMLU中汲取灵感。鉴于大型语言模型的生成能力多种多样这种评估方法存在很大的局限性。 CG-Eval 为了衡量中文大型语言模型的生成能力我们引入了 CG-Eval中文生成评估基准。在这次评估中测试模型需要对 11,000 个不同的问题提供准确和相关的答案这些问题涵盖六大学科类别科学与工程、人文与社会科学、数学计算、医师资格考试、司法考试和注册会计师考试。这些类别进一步细分为 55 个子学科。问题可分为三类术语定义、简答题和计算问题。我们设计了一个综合评分系统对于非计算类问题每个术语定义和简答题都有一个参考标准答案。分数来自多个生成指标然后使用加权和进行汇总。对于计算类问题我们同时评估最终的计算结果和问题解决过程最终得出一个综合分数。 CG-Eval基准测试包含三种不同类型的问题术语定义简答题和计算问题。只有数学计算部分涉及计算问题。在术语定义类别中我们展示了每个子学科的专业术语需要测试模型阐明它们的含义。简答题会针对各个学科提出问题模型需要根据问题给出准确的答案。数学计算部分包括四个学科小学数学、初中数学、高中数学和大学数学。小学数学的问题类型包括基础算术和应用题。基础算术要求模型能够读取问题并直接返回数值结果。应用题要求模型提供逐步的求解过程并以规定的格式给出最终的计算结果。初中数学、高中数学和大学数学都只有一种类型的问题——计算问题求解包括数值计算、因式分解、方程分解、微积分等也要求模型能够描述求解步骤并按照规定的格式给出最终答案。我们采用了一种动态灵活的提示词生成方法确保每个问题都与一个唯一的提示词配对。对于非计算性问题我们对答案的长度施加了限制。我们为模型提供参考答案的字符长度促使它生成近似于给定参考长度的响应。定义问题的提示词格式如下以下是{科目名称}科目的术语{术语}请解释其含义把回复控制在{答案长度}个汉字左右。“简答题”相关提示的格式如下以下是{科目名称}科目的问题请解答并把回复控制在{答案长度}个汉字左右。\n{问题}计算题的提示稍微复杂一些。“小学计算”题的提示格式如下以下是{subject}科目的问题请进行计算并给出阿拉伯数字结果。请直接返回数值结果不需要任何的汉字解释。\n{题目}初等数学中“应用题”相关提示的格式如下以下是{科目名称}科目的问题请以“解”开始给出解题过程并在解题过程的最后换行在最后一行以“最终答案”开头按顺序给出数值及其单位采用英文逗号分割例如“最终答案1元,1次,1公顷,1人”。\n{题目}初中、高中、大学数学的题目格式相同且非常复杂。结构如下以下是{科目名称}科目的问题请使用latex语法给出解题过程并在解题过程的最后换行在最后一行以“最终答案”开头根据不同的题目类型按照latex语法给出数值、表达式、导数、积分、方程的根。导数根据题目表述采用latex语法按照y’或者f’(x)表示。如果方程的一个未知数有多个解答案采用形如“x1或x-3”的方式表示。如果方程有多个未知数答案采用形如“x1,y-3,z5”的方式表示用英文逗号分隔。以下为需要解答的题目\n{题目} 在评估文本生成质量时传统上有几个指标占据主导地位BLEU、ROUGE、CHRF 和语义相似性度量。这些指标都为该领域做出了独特的贡献。BLEU主要用于机器翻译强调 n-gram 匹配但经常忽略语义细微差别。ROUGE面向摘要平衡了准确率和召回率但可能忽略了冗余和语义深度。CHRF提供字符级分析提供粒度但有时过分强调表面形式。语义相似性利用预先训练的模型捕捉更深层次的语义关系但计算量可能很大有时会错过更细微的差别。然而这些指标虽然单独使用时很有用但在单独使用时往往提供有限的视角。为了克服这些传统指标的局限性和偏见我们开发了 Gscore。这个综合指标融合了每个指标的优势旨在提供更全面、更平衡的文本生成质量评估。Gscore 整合了 BLEU 的精确度、ROUGE 的平衡召回率和精确度、CHRF 的粒度以及语义相似性度量捕获的语义深度。通过这样做它解决了单个指标的狭窄焦点提供了更广泛、更细致入微的文本质量视图。 BLEU 概述BLEU 通过将 n-gram 重叠与参考翻译进行比较来评估机器翻译。优点简单、高效、与人类判断相关。局限性词汇匹配重点、短句问题、有限的多样性处理。ROUGE 概述ROUGE 通过 n-gram 重叠评估文本摘要重点关注精确度和召回率。优点全面评估、与人工评估的相关性。局限性回忆偏差、词汇匹配重点、参考摘要依赖性。CHRF 概述CHRF 在字符级别评估翻译强调更精细的词汇细节。优点灵活性、粒度、对拼写错误的容忍度。局限性计算复杂性、强调表面形式、参考依赖性。语义相似性概述使用预训练语言模型的矢量化表示来测量语义相关性。优点丰富的语义理解、泛化能力。局限性计算需求、潜在的细节丢失、模型偏差。 Gscore Gscore 的开发基于对现有文本生成评估指标的彻底分析和批判性评估。认识到虽然 BLEU、ROUGE、CHRF 和语义相似性度量各有其优势但它们在独立使用时也具有固有的局限性。例如BLEU 和 ROUGE 主要关注 n-gram 匹配可能无法完全捕捉语义复杂性CHRF 虽然在字符级别提供更精细的分析但可能过分强调表面形式使用预训练模型进行语义相似性评估虽然可以捕捉更深层次的语义关系但计算量可能很大并且可能会忽略某些细微差别。因此我们提出了 Gscore这是一种综合指标可以协同整合这些方法的优势。在设计 Gscore 时我们采用了加权求和方法来合并这些不同的指标。每个指标的权重都经过仔细调整和测试以确保在综合评估中做出平衡的贡献。具体来说Gscore 包括20% 来自 BLEU反映精度和 n-gram 匹配25% 来自 ROUGE提供精度和召回率的平衡视图另外 25% 来自 CHRF增加了字符级粒度30% 来自语义相似性确保考虑深层语义关联。 Gscore0.2Bleu40.25Rouge20.25Chrf0.3语义相似度计算语义相似度时我们先用中文预训练模型对模型答案和参考答案进行向量化然后计算它们的余弦相似度。CG-Eval第二版使用BAAI/bge-large-zh-v1.5CG-Eval第一版使用text2vec-large-chinese。由于模型答案和参考答案可能超出模型的最大处理长度我们设计了一个滑动窗口编码模块。该模块以滑动的方式对窗口内的文本进行编码将编码后的向量存储在列表中。在每个窗口内我们利用预训练的语言模型对文本进行编码。所有窗口处理完成后我们将编码向量聚合起来取平均值或者拼接起来表示整个文本。对于数学计算任务Gscore的计算稍微复杂一些。对于小学数学的算术题我们直接比较最终的数值结果如果模型的输出与参考答案完全匹配则该题得1分否则得0分最终的Gscore是所有小学算术题的平均分。对于小学数学的应用题以及初中、高中、大学数学的计算解题题需要通过答案分析模块提取解题过程和最终答案如果提取出的最终答案与参考答案完全匹配则该题的Accuracy为1否则为0。然后计算提取出的解题过程相对于参考解题过程的Chrf分数StepChrf。然后使用以下公式计算最终的 GscoreGscoreAccuracy(1-Accuracy)0.3StepChrf 如果最终答案正确则该问题的 Gscore 设置为 1。相反如果最终答案不正确则可获得的最大 Gscore 上限为 0.3实际值为 StepChrf 分数的 0.3 倍。总之Gscore 的开发基于对现有评估指标的深入分析和批判性理解。我们的目标是创建一个保留个人优势的综合指标指标同时弥补各自的局限性。这样的设计使 Gscore 成为一种灵活、全面、可靠的文本生成质量评估工具适用于广泛的场景和不同类型的文本生成任务。实验为了评估大规模中文语言模型的生成能力我们在 CG-Eval 数据集上对 19 个模型进行了零样本测试包括但不限于GPT-4 、ChatGLM-Pro 、ChatGLM-Std 、Spark Desk 、ERNIE Bot、Qwen-7B-Chat、Baichuan-13BChat 、Ziya-LLaMA-13B-v1.1 、ChatGLM2-6B、AquilaChat-7B 、tigerbot-sft-7b 等。所有测试模型的名称、开发机构、参数数量和用途的详细信息可以在表1中找到如表 2 所示对大型中文语言模型的综合评估揭示了不同模型的能力和性能的多样性。在本次评估中模型在六个不同的学科领域接受了严格测试从而全面了解了它们的生成能力。结果以 Gscore 来概括让我们了解这些模型在这些专业领域内生成准确且相关的响应方面的表现。由 OpenAI 开发的 GPT-4 以最高平均 Gscore 成为领跑者展示了其在不同学科领域的稳健性和多功能性。紧随其后的是智浦·AI 的 ChatGLM-Pro 和 ChatGLM-Std 表明它们在处理复杂文本生成任务方面表现出色。其他模型如百川人工智能的 Baichuan2-53B和阿里云的 Qwen-14B-Chat也展示了令人称赞的能力与学术和专业环境不断变化的需求相得益彰。另一方面Tigerobo 的 tigerbot-sft-7b和 BAAI 的 AquilaChat 系列等模型虽然仍表现出显著的熟练程度但在整体 Gscore 方面落后。这表明它们的算法和训练方法还有进一步改进的空间。这些模型性能的多样性凸显了语言建模领域的快速进步特别是在中文背景下。它还强调了持续创新和发展的重要性以提高这些人工智能驱动工具的准确性、相关性和语境理解能力。表 3 中的平均 Gscores 表明对科学与工程领域大型中文语言模型的评估提供了对该特定领域中 AI 驱动文本生成的现状的深刻观察。该评估侧重于模型在科学与工程领域生成精确且上下文相关的内容的能力反映了这些复杂工具的细微功能。讯飞开发的 Spark Desk以最高的 Gscore 领先表明其在处理复杂的科学和工程查询方面非常熟练。这表明其先进的算法和针对特定领域数据集的训练可以深入了解技术主题。紧随其后的是来自智浦·AI、ChatGLM-Std和 ChatGLMPro的模型以及 OpenAI 的 GPT-4它们都表现出色。这些模型的高分表明它们在生成准确和相关的响应方面具有全面的能力凸显了它们在学术和专业环境中的潜在实用性在科学与工程领域。有趣的是结果还揭示了具有竞争力的中间层模型例如百川AI的Baichuan2-53B和阿里云的Qwen14B-Chat。它们的表现虽然不是榜首但仍然值得称赞表明该领域取得了重大进步。另一方面像Tigerobo的tigerbot-sft-7b和BAAI的AquilaChat系列这样的模型虽然展示了显着的能力但仍表明需要改进的地方以便与该领域的领导者相匹配。在这一类别中表现领先的是百川AI的Baichuan2-53B展示了其对人文社会科学固有概念和思想的卓越掌握和表达能力。该模型取得的高分表明该模型对该领域的细微差别和多样化背景有着深刻的理解。紧随其后的是 ZHIPU·AI 的 ChatGLM-Pro和 OpenAI 的 GPT-4它们都表现出在这些主题上生成连贯且相关的响应的强大能力。它们的表现凸显了语言模型在处理人文和社会主题的复杂性方面取得的进步。阿里云的 Qwen-14B-Chat和 01-ai 的 Yi-34BChat等模型也表现出了令人称赞的性能表明它们有效的训练和算法结构有利于人文和社会科学内容的生成。这表明这些模型不仅技术精湛而且能够处理这些学科中发现的各种主题和观点。另一方面Tigerobo 的 tigerbot-sft-7b和 BAAI 的 AquilaChat 的一些迭代等模型虽然仍显示出该领域的能力但却落后于同行。不同模型之间性能的差异凸显了微调语言模型以满足人文和社会科学的细微要求所固有的挑战。这也表明了该领域进一步发展和专业化的潜力。表 5、6、7 反映了专业资格考试中大型汉语模型的综合评估让我们一窥大型汉语模型的适用性和有效性。这些模型在高度专业化和知识密集型领域中的表现都十分出色。这些考试以其严谨性和复杂性而闻名是测试模型理解、处理和生成符合专业标准的响应的能力的坚实试验场。在执业医师资格考试中智谱·AI的ChatGLM-Std和ChatGLM-Pro以及讯飞的Spark Desk等模型表现出色展示了它们在医学术语和概念方面的能力。这表明这些模型在处理领域特定语言和概念的能力方面取得了显著的进步这在医疗环境中至关重要。司法考试结果也显示出类似的趋势百川AI的Baichuan2-53B和智谱·AI的ChatGLM-Pro得分最高。它们的优异表现表明它们能够熟练地处理法律语境中所需的复杂语言和细微推理。这种能力对于法律研究和实践的应用至关重要因为语言的准确性和清晰度至关重要。在注册会计师考试中领先的模型诸如百川AI的Baichuan2-53B和智浦·AI的ChatGLM-Pro等模型表现出色表明它们在理解和生成与财务和会计原则相关的响应方面非常有效。这种驾驭复杂财务术语和概念的能力表明了这些模型在财务分析和会计实践中的潜在效用。在所有三项考试中很明显领先的模型不仅在语言处理方面表现出色而且还展示了对专业知识领域的深刻理解。这证明了人工智能驱动的语言模型的进步它们不仅精通语言而且还能够处理特定领域的挑战。然而模型之间的性能存在明显差异特别是在需要高度专业知识的领域。这表明虽然一些模型在处理特定的专业环境方面越来越熟练但仍有改进的空间特别是在确保各个专业领域的一致性和理解深度方面。总之在专业资格考试中对这些模型的评估不仅衡量了它们当前的能力而且还突出了它们在专业环境中的应用潜力。这次评估的见解强调了持续开发和微调这些模型以满足各个专业领域的特定需求的重要性。如表 8 所示大型中文语言模型在数学计算领域的评估结果显示它们在处理计算任务的能力方面存在显著差异。这些结果特别具有启发性因为它们强调了这些模型处理和执行数学推理的不同程度而数学推理是众多科学和工程应用中的关键方面。OpenAI 的 GPT-4在这一类别中脱颖而出获得了最高的平均 Gscore。这一出色表现可以归因于其先进的算法和广泛的训练其中包括对数值和逻辑处理能力的关注。GPT-4 在数学计算方面表现出色表明它在需要复杂计算任务的领域具有潜在用途。继 GPT-4 之后智浦·AI 的 ChatGLM-Std 和 ChatGLM-Pro等模型也表现出色。虽然它们的表现不如GPT-4但在一定程度上表明了这些模型在处理数学计算方面的能力。这表明了它们的训练和算法设计在处理数值数据和执行计算方面的有效性。然而随着榜单的下滑性能表现明显下降阿里云的 Qwen-14B-Chat、百川人工智能的 Baichuan253B和讯飞的 Spark Desk等模型的得分明显较低。这种下降凸显了许多语言模型在数学环境中面临的挑战因为数学环境中的精度和逻辑连贯性至关重要。Tigerobo 的 tigerbot-sft-7b、Langboat 的 mengzi-gpt-40b和 BAAI 的 AquilaChat 系列等模型处于榜单的低端表明它们的数学计算能力还有很大的提升空间。这表明尽管这些模型可能擅长语言任务但它们执行数学计算的能力却有限这凸显了需要专门的训练或算法调整来提高它们在这些任务中的表现。总之这些模型在数学计算中的不同表现为了解人工智能在处理计算密集型任务方面的现状提供了重要的见解。此次评估的结果不仅可以作为中文语言模型数学能力的基准而且还强调了在这一特定领域进行有针对性的改进的必要性。这些知识对于推动该领域的发展和扩大这些模型在数学能力至关重要的领域的适用性至关重要。类别 1准确但过于冗长的回答示例 1 和 2这些示例说明了模型的回答准确但比参考答案更冗长的情况。尽管篇幅较长但较高的 Rouge2 和相似度得分表明核心信息得到了很好的传达。这反映在最终的 Gscores 0.83 和 0.79 中与手动评分 1.0 非常接近。类别 2缺少关键信息示例 3、4 和 5在这里模型的回答缺少关键信息这严重影响了手动评分。但是高相似度得分表明对主题的理解不完整。最终的 Gscores 0.7、0.6 和 0.59 与手动评分非常接近表明 Gscore 能够捕捉这些细微差别。类别 3有意义但不相关的回答示例 10、11 和 12在这些情况下模型的回答与问题完全无关。尽管相似度得分出奇的高但较低的 BLEU、Rouge2 和 CHRF 得分反映了相关性的缺乏。最终的 Gscores 为 0.25、0.15 和 0.24与手动得分为 0说明 Gscore 在惩罚不相关回答方面很有效。类别 4部分正确的回答示例 6 和 7这些示例展示了模型提供部分正确信息但遗漏重要细节的回答。最终的 Gscore 为 0.1 和 0.6表明模型的部分准确性与手动得分一致。类别 5偏离预期含义示例 8此回答部分正确但后半部分与预期含义有显著偏差。最终的 Gscore 为 0.25与手动得分 0.3 相符表明该指标能够辨别和惩罚与参考答案的偏差。类别 6表达不同含义相同示例 9尽管模型的表达与参考不同但传达了相同的含义。最终的 Gscore 为 0.58接近手动评分 0.8凸显了 Gscore 能够识别不同措辞下的语义等价性。 Bleu4 权重 (0.2)尽管 Bleu4 对响应的字面准确性很敏感但在自然语言处理中语义重要性通常比字面精度更重要。上述示例表明即使 Bleu 分数较低由于语义相似度高Gscore 仍能有效反映人工评估。因此为 Bleu4 分配较低的权重是合理的。Rouge2 和 Chrf 权重各 0.25这些指标评估重复性和覆盖率反映响应的全面性。示例表明即使响应偏离参考答案Rouge2 和 Chrf 也能在一定程度上保持 Gscore 的稳定性从而验证了它们的适当权重。语义相似度权重 (0.3)这具有最高权重强调了语义一致性在评估模型响应中的重要性。多个示例表明即使其他指标的分数较低高语义相似度分数也可以使 Gscore 接近人工评估证明了其重要权重的合理性。结论Gscore公式通过平衡各个评估维度的权重全面反映了模型响应的质量。它不仅考虑了文字准确性还高度重视语义相似性这对于评估自然语言生成模型至关重要。这种权重确保了即使与参考答案存在显著的文字差异只要保持语义接近度Gscore也能有效反映模型性能。这种方法与强调语义理解的自然语言处理原理非常吻合。计算问题示例在我们的评估中如表10所示我们提供了四个不同的计算问题案例每个案例都旨在测试模型的数学问题解决能力。这些问题的复杂性和类型各不相同可以全面评估模型的计算能力。对于每个问题我们设置了特定的提示和格式输出要求以标准化测试程序并确保不同模型之间的可比性。每个计算问题的评估过程分为几个系统步骤提取最终答案首先我们从模型的响应中提取最终答案。此步骤至关重要因为它专注于隔离模型针对计算问题生成的核心数字或符号输出。答案标准化提取最终答案后我们将进行标准化过程。这涉及删除任何空格、多余的符号或对答案的数学有效性没有贡献的无关字符。此步骤的目的是确保可以统一评估答案而不管格式或表示方式可能存在的细微差异出现在模型的响应中。与参考答案的比较然后将标准化的最终答案与参考最终答案进行比较。参考答案是已知正确的预定解决方案。这种比较对于确定模型响应的准确性至关重要。正确答案的 Gscore 计算如果模型的标准化最终答案与参考最终答案完全匹配则表明问题已正确解决。在这种情况下模型将获得 1 的 Gscore表示解决问题的准确性和正确性满分。错误答案的 Gscore 计算在模型的答案与参考答案不匹配的情况下我们将继续评估解决问题的过程。我们计算模型的整个问题解决过程与参考过程的 Chrf 分数这是一个字符级评估指标。因此Chrf 分数反映了模型的方法和中间步骤与标准方法的接近程度。然后将该分数乘以 0.3 以获得该问题的最终 Gscore。这种降低的权重不仅强调了过程的重要性也强调了最终答案的准确性。通过这种细致而结构化的评估过程我们旨在对每个模型处理和准确解决数学问题的能力进行稳健而公平的评估。这种方法不仅测试模型的计算准确性还测试它们对逻辑问题解决方法的遵守情况从而全面了解它们在数学推理和计算方面的能力相关性结果如下所示散点图如图 2 所示。Kendall Tau 相关性0.6137523339513649 P 值1.5991267354009107e-215 为了评估 Gscore 与人工评估之间的相关性我们进行了一项研究使用 11,000 个问题来测试 10 个大型语言模型得出相应的 Gscores。为了评估相关性我们从总集合中提取了 1,100 个问答对的子集。这些对来自 55 个不同的主题和由 10 个不同模型生成的响应。随后我们邀请人类专家对这 1,100 对进行评分。最后一步是计算 Gscores 与专家人工评估之间的相关性。这种方法可确保对模型在各种主题上的表现进行全面且具有代表性的评估。人工专家参与评分为评估 Gscores 的有效性和可靠性提供了强有力的基准。抽样方案概述如下分层随机抽样鉴于科目多样性总共有 55 个不同的科目应首先按科目分层以确保每个层内的代表性。在每个科目中将采用随机抽样来选择问题确保样本的多样性和代表性。模型覆盖保证从10个大型模型提供的答案中对于每个选定的问题将随机选择一个模型的答案纳入其中。这种方法确保分析涵盖所有参与模型的答案从而提高评估的全面性。主题分布均衡确保1100个抽样问题中每个主题的比例大致相当于其在11000个问题的总池中的比例。这种平衡保持了样本的代表性避免了某些主题的过度代表或被忽略。为什么采用固定提示一致性和可比性固定提示确保评估过程的一致性允许直接比较不同模型之间的结果。这种标准化对于公平评估各种模型的性能至关重要。变量控制在科学研究中控制变量是必不可少的。通过使用固定提示研究人员可以消除不同提示导致的性能差异从而更准确地评估模型的固有能力。可重复性固定提示增强了实验的可重复性。其他研究人员可以使用相同的提示词重复实验并验证或比较他们的结果。简化评估过程使用固定提示简化了评估过程使模型评估更容易理解尤其是对于非专家用户而言。

查看全文

http://www.w-s-a.com/news/661199/