做网站的项目职责怎么写,画江湖网站开发文档,有没有免费开网店的软件,h5网站需要哪些技术论文地址#xff1a;Humanity’s Last Exam 1. 背景与动机
随着大型语言模型#xff08;LLMs#xff09;能力的飞速发展#xff0c;其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力#xff0c;LLMs 需要接受基准测试#xff08;BenchmarksHumanity’s Last Exam 1. 背景与动机
随着大型语言模型LLMs能力的飞速发展其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力LLMs 需要接受基准测试Benchmarks的评估。然而现有的基准测试如 MMLU已经无法满足需求
饱和现象严重顶尖的 LLMs 在这些基准测试中已经能够达到超过 90% 的准确率难以准确反映 AI 能力的真实水平。无法有效评估前沿能力现有基准测试无法充分评估 AI 在人类知识前沿领域的进步。
为了解决上述问题HUMANITY’S LAST EXAM (HLE) 应运而生旨在成为评估 AI 学术能力的最终封闭式基准测试。
2. HLE 的核心特点
2.1 挑战性与前沿性
高难度HLE 包含 3000 道 极具挑战性的问题涵盖数学、人文、自然科学等 100 多个学科领域。 示例 数学涉及高阶数学概念如自然变换、共变自然变换等。化学要求分析复杂的化学反应机理。语言学考察对古代语言如圣经希伯来语的深入理解。其他包括经典文学、生态学、计算机科学等领域的问题【详见图 2】。 前沿性问题由全球近 1000 名来自 500 多家机构的领域专家包括教授、研究人员、研究生等共同开发确保了问题的前沿性和专业性。
2.2 多模态与精确性
多模态HLE 是多模态基准测试10% 的问题需要同时理解文本和图像信息。精确性 问题格式包括精确匹配题模型提供精确字符串作为输出和多项选择题模型从五个或更多选项中选择一个。答案验证所有问题都有明确的、客观的答案便于自动化评分。
2.3 严格的质量控制
多阶段审核流程 LLM 难度检查在提交之前每个问题都会经过多个前沿 LLM 的测试。如果 LLM 能够正确回答则该问题会被拒绝【详见图 4】。专家评审通过 LLM 测试的问题将进入两轮人工评审 第一轮由研究生级别的评审员进行多轮反馈和修订。第二轮由组织者和专家评审员进行最终审核确保问题质量和符合提交标准。 社区反馈发布后将进行公开反馈期收集研究社区的意见以纠正数据集中的任何问题。 严格的提交标准 问题必须精确、无歧义、可解决且无法通过简单搜索获得。所有提交内容必须为原创作品或对已发表信息的非平凡合成。问题通常需要研究生级别的专业知识或测试对高度专业主题的知识。答案简短且易于验证以支持自动评分。禁止开放式问题、主观解释和与大规模杀伤性武器相关的内容。
3. HLE 的评估结果与分析
3.1 顶尖 LLM 的表现
准确率低所有顶尖 LLM 在 HLE 上的准确率均低于 10%表明当前 AI 能力与专家级学术表现之间存在显著差距【详见表 1】。 原因分析 问题难度高HLE 旨在筛选出 LLM 无法正确回答的问题。模型推理噪声模型在推理过程中存在固有噪声导致其无法始终保持一致的表现。 校准误差高模型在 HLE 上表现出较差的校准性经常以高置信度提供错误答案表明模型存在幻觉hallucination问题【详见表 1】。 RMS 校准误差衡量模型预测置信度与实际准确率之间的一致性。RMS 误差越高表明模型越不善于识别自身能力的边界。
模型准确率 (%) ↑RMS 校准误差 (%)GPT-4O3.392.5GROK23.893.2CLAUDE3.5SONNET4.388.9GEMINI1.5PRO5.093.1GEMINI2.OFLASHTHINKING6.293.9O19.193.4DEEPSEEK-R19.481.8
3.2 推理与计算成本
推理成本高具有推理能力的模型需要生成更多的标记tokens从而导致更高的计算成本【详见图 5】。 未来方向未来的模型不仅需要在准确率方面有所提升还应致力于提高计算效率。
4. 未来展望与影响
4.1 未来模型的表现
发展潜力巨大尽管当前 LLM 在 HLE 上的表现不佳但 AI 发展迅速模型很可能在 2025 年底之前在 HLE 上达到超过 50% 的准确率。局限性HLE 主要测试结构化的学术问题而非开放式的科研或创造性问题因此它只是衡量 AI 技术知识和推理能力的一个指标而非衡量“人工通用智能”AGI的标准。
4.2 对 AI 发展的影响
提供共同参考点HLE 为科学家和政策制定者提供了一个评估 AI 能力的共同参考点有助于更深入地了解 AI 的发展轨迹、潜在风险以及必要的治理措施。促进 AI 发展HLE 的发布将激励研究人员开发更强大的 AI 模型推动 AI 技术的不断进步。
5. 总结
HLE 代表着 AI 基准测试的一个重要里程碑它
挑战 AI 极限通过设计极具挑战性的问题HLE 有效评估了 AI 在人类知识前沿领域的能力。推动 AI 发展HLE 的发布将推动 AI 研究人员不断突破现有技术的瓶颈推动 AI 技术的进一步发展。促进 AI 治理HLE 为 AI 治理提供了重要的参考依据有助于制定更有效的 AI 政策。 图 2HLE 提交的部分多样且具有挑战性的问题示例 图 4HLE 数据集创建流程。接受 LLM 无法解决的问题然后借助专家同行评审员进行迭代完善。每个问题随后由组织者或由组织者培训的专家评审员手动批准。除了公共集之外还保留了一个私有保留集以评估模型在公共基准测试上的过度拟合和作弊行为。 图 5测试的推理模型的平均完成标记计数包括推理和输出标记。我们还在附录 C.3 中绘制了非推理模型的平均标记计数。
6. 结论
HLE 为 AI 领域提供了一个全新的、极具挑战性的评估平台将有助于推动 AI 技术的持续进步并为 AI 治理提供重要的参考依据。