自助建站视频网站,永川做网站,wordpress 文章 页面模板,免费开源建站系统源码大家读完觉得有帮助记得及时关注和点赞#xff01;#xff01;#xff01; 抽象 最近的基准研究声称#xff0c;AI 在各种认知任务上的表现已经接近甚至超过人类的“水平”。然而#xff0c;本立场文件认为#xff0c;当前的 AI 评估范式不足以评估类似人类的认知能力。我…
大家读完觉得有帮助记得及时关注和点赞 抽象 最近的基准研究声称AI 在各种认知任务上的表现已经接近甚至超过人类的“水平”。然而本立场文件认为当前的 AI 评估范式不足以评估类似人类的认知能力。我们确定了一系列关键缺点缺乏人工验证的标签人类反应的可变性和不确定性的代表性不足以及依赖简化和生态无效的任务。我们通过对 10 个现有的 AI 基准进行人工评估研究来支持我们的主张这些研究表明任务和标签设计中存在重大偏差和缺陷。为了解决这些限制我们提出了五项具体建议以开发未来的基准这些基准将能够对 AI 中类似人类的认知能力进行更严格和有意义的评估并对此类 AI 应用产生各种影响。 机器学习、ICML 1介绍 从人工智能 AI 的早期开始创造像人类一样思考和行动的机器的愿景就吸引了研究人员和公众的想象力图灵1950;Lake 等人2017;洞穴和迪哈尔2023;魏岑鲍姆1966;Anderson 等人1990).这种追求不仅受到科学好奇心的驱动即更好地了解智能和作为人类的意义还受到类人 AI 的潜力驱动通过我们参与工作和彼此互动的方式重塑我们的世界。此外构建反映人类认知的 AI 对于 AI 对齐的关键任务至关重要。确保这些强大的系统理解并分享我们的价值观最终将导致更安全、更有益的互动Kasirzadeh Gabriel2023).更深入地了解人类智能的基础机制也可以为更强大和适应性更强的 AI 系统的开发提供信息和促进开发。 尽管构建类人 AI 的重要性已得到公认但对于“类人”表演的构成仍然难以找到清晰一致的定义我们已经看到这个术语在文献和公共话语中的应用不一致。近年来越来越多的人声称 AI 系统在各种任务上达到了人类水平的性能。然而这些结果对于确定 AI 系统是否以人类“类似”的方式行事的相关性受到现有评估基准局限性的挑战。 在本文中我们认为当前的评估范式不足以评估 AI 系统中类人能力的真实程度。具体来说我们强调了三个主要缺点数据集标记中过于频繁地缺乏人工验证在收集的人类数据中无法充分表示人类变异性以及过度依赖缺乏生态有效性且无法反映真实世界场景复杂性的简化任务。我们通过一项针对10众所周知的 AI 基准测试任务展示了这三个轴上的潜在缺陷。为了解决这些关键差距我们提出了五项针对未来基准开发的具体建议这些建议源自认知建模的最佳实践。我们相信这些建议将为对类人 AI 进行更严格、更有意义的评估铺平道路促进对该领域现状的更准确理解并指导其未来发展。最后我们以实施这些建议的开放性问题和挑战作为结束。 基准 任务描述BigBench 系列Srivastava 等人2022) 幻想推理对违反世界普通规则的场景进行推理社会 IQA 对典型社交场合的推理。道德上的允许 对场景中道德允许的行为进行推理简单的道德问题 对一系列假设的、后果性的、政治和社会问题给出观点。社会支持 区分支持和不支持的语言使用。讽刺识别 确定文本是否具有讽刺意味。黑色幽默检测 检测特定文本是否旨在幽默以黑暗的方式电影对话框相同或不同 确定电影对话中的两条相邻“台词”是由同一个人还是不同的人产生的。ToMBenchChen 等人2024) 不明确的故事任务推理并回答有关模棱两可的社交场合的问题BigToM甘地等人2024) 心智推理理论回答有关代理人的信念和行为的问题
表 1我们实验中用于评估人类响应分布和一致性水平的基准任务。
2构建和评估类人 AI 长期以来人们一直对在机器中构建和评估类人智能感兴趣。但是我们所说的类人智能是什么意思呢在本文中我们采用了 Alan Turing 给出的定义图灵1950)一个智能系统可以引发“与人类没有区别”的类似判断和行为。 但是我们为什么要以类人 AI 为目标呢追求类人 AI 的动机既是科学好奇心也是出于实际考虑。从 AI 的早期开始学者们就一直在寻求理解、建模和尝试复制人类认知和智能的复杂性罗森布拉特1958;Rumelhart 等人1988;明斯基1988;米切尔2024)并将这些认知模型用于实际应用。构建类人 AI 提供了一个强大的镜头通过它来探索有关心灵哲学、人类认知本质以及驱动复杂人类行为的潜在机制的基本问题。这一探索不仅突破了计算机科学的界限还有望加深我们对人类智能的理解。 创建表现出类似人类思维和行为的 AI 系统为应用程序提供了几个潜在优势。类人 AI 可以在许多场景中代替人类思考和行动同时确保安全性和可靠性 • 有效的人机交互人类已经发展了复杂的社会认知技能以实现有效的协作其中包括模拟其他代理的心理状态和未来的行为班杜拉2001;加勒塞2007).遵循类似人类的推理和行为模式的 AI 系统可以使人类用户轻松构建 AI 伙伴的准确心智模型并更好地模拟和预测 AI 伙伴的未来行动Collins 等人2024年).这导致人类用户和 AI 代理之间更有效的协作和协调Carroll 等人2019;Ho Griffiths2022;Zhi-Xuan 等2024).此外与行为可预测且可理解的代理交互可以减少认知负荷Dragan 等人2013;Fisac 等人2020).我们不必花费太多的脑力来试图破译不熟悉或意想不到的行为。 • 更好的模拟代理具有类似人类认知能力的 AI 系统是构建人员模拟的宝贵工具。这有很多好处包括改善沟通Liu 等人2023;Shaikh 等人2024)生成对试点研究的反馈甚至可能使社会科学中的人类参与者反应自动化Ashokkumar 等人2024;Park 等人2024;Demszky 等人2023)或人机交互Hämäläinen 等人2023).之前的工作还探索了使用 LLM 进行产品测试Brand 等人2023)以及在软件工程中替代人类主体Gerosa 等人2024). • 灵活的泛化人类通常被认为是从小数据进行泛化的黄金标准让 AI 系统复制驱动人类高效学习能力的机制也可能使 AI 系统能够做到这一点Lake 等人2017;Sucholutsky Schonlau2021;Sucholutsky 等人2024). 3基准选择和评估 为了激励我们的建议我们收集了以下方面的人类数据10常用的 AI 基准测试。我们选择了8BigBench 的基准测试Srivastava 等人2022)在常识推理类别和两个心智理论推理基准下BigToM甘地等人2024)和 ToMBenchChen 等人2024).表 1 中描述了这些基准。我们选择这些基准测试是因为它们代表了广泛的认知任务并且不需要任何专业知识。许多研究侧重于语言理解和社会认知这与人类与 AI 的互动特别相关。所有 10 个基准测试的每个刺激因素都有一个 ground truth 标签。 我们随机抽样30来自每个基准的刺激并招募240来自 Prolific 的 participants 来标记数据集。每个参与者都被随机分配到一个数据集并完成30随机顺序的试验。我们使用了基准测试提供的相同答案选项但我们没有使用多项选择题而是要求参与者在量表上拖动一个滑块1−100例如1 强烈不同意100 非常同意。 我们在下面的部分中重点介绍了一些汇总统计数据和诊断示例以支持我们的论点。更详细的分析和示例可以在附录中找到。 图 1参与者对所有 300 个刺激指标的基准标签的一致性分布。26.67% 的刺激与标签的一致性低于 50%即不到一半的参与者选择了基准提供的标签。
4对类人 AI 进行基准测试的陷阱和建议 在本节中我们提出了评估“类人”AI 的建议。已经有几篇工作强调了评估 AI 系统性能的替代方法Burnell 等人2023;Shanahan 等人2023;Beyret 等人2019).在这里我们特别关注来自数十年计算建模的见解如何为我们进行 AI 基准测试提供信息。我们在这里提出的建议源于认知科学多年的发展和辩论以确定设计任务的最佳实践将模型与人类判断进行丰富的比较并进一步完善关于计算模型首先打算捕捉人类行为哪些方面的假设——我们认为这些都是理论上丰富的基石。 可复制的、可测量的关于给定模型与人类行为具有可比性和不可比性的意义上的声明。我们敦促 AI 基准测试的开发人员参与并利用这段历史。 4.1建议 1根据真实人类来衡量“类人 AI”并收集可靠、可复制的人类数据样本量 数量惊人的“认知启发”基准测试套件和 AI 评估声称可以在没有任何人类数据的情况下测量类似人类的 AI 性能。相反从心理分析中衍生或有时松散地改编的任务用于直接评估计算模型的性能通常带有“解决”任务意味着什么的基本事实概念例如确定模型是否可以在源自认知心智理论实验的简单“错误信念”任务中标记心理状态Wimmer Perner1983)).我们的第一个也是最基本的建议是用于衡量 AI 是否像人类的地面实况标签应该是从人类本身收集的响应数据。 我们建议使用实际的人类行为作为 AI 基准测试的“黄金”标签对于认知科学中已有充分记录的许多结构方面非常重要。首先许多 AI 基准测试试图评估本质上的主观概念——例如某项行为在道德上是否允许——其中可能不存在单一的客观正确答案甚至任何一组“正确答案”。相反主观行为的计算模型如道德推理长期以来一直试图描述人类判断的分布包括解释人群、社会群体和文化之间的已知差异Graham 等人2009,2016)同时也试图解释这些差异是如何产生的Levine 等人2020). 其次即使在基于外部测量的单一目标“黄金标签”的任务上测量人类行为仍然可能揭示重要的差异和分歧有时具有很高的置信度但这仍然揭示了人类处理特定输入的内部计算。例如涉及 The Dress 的著名视觉错觉说明了即使给定一个可衡量的外部标签即连衣裙的真实颜色人们的判断也存在强烈不同的判断。这些对这种单一刺激的不同判断揭示了人类视觉处理的重要、可测量和可建模的方面Lafer-Sousa 等人2015).更一般地说构建真正类似人类的系统或可以很好地模拟类似人类行为的系统还需要对人类错误模式和不确定性进行建模。计算认知建模者并不回避人为错误而是倾向于关注它们;考虑Battaglia 等人 2013)它们构建了一个人类如何推理我们的物理世界的模型。他们发现并建模了我们人类对物理学的推断并不总是准确的;正如研究视觉和其他知觉幻觉的历史所强调的那样这种错误可以帮助揭示我们所知道或不知道的结构。因此了解机器是否像人类应该从世界的“真实”状态来检查这种错误模式。 在我们分析了一套常见的 AI 评估基准时这些基准以前只用一个 “正确” 答案进行了注释我们发现人类判断存在高度的分歧。具体来说我们发现平均只有 63.51% 的参与者同意每个刺激的地面实况标签标准差为 20.99。值得注意的是我们发现 26.67% 的刺激物的人类同意率低于 50%。考虑图 2 中的具体示例参与者被要求对“引用或讨论她的艺术没有错”这句话是否支持。在没有上下文的情况下大多数参与者认为该陈述更支持而不是不支持但基本事实标签是“不支持”。我们在附录的表 3、4 和 5 中展示了更多此类示例。 综上所述我们对这些基准的重新注释——使用真实人类——表明人们对一些已发布的用于基准测试“人类相似度”的地面实况标签的有效性存在严重担忧。 4.2建议 2根据人类判断的人口水平分布评估人类种群模型 我们的第二个建议更具体地建立在我们上面讨论的注释者间变体之上——对于许多 AI 模型特别是明确在大量人类生成数据上训练的机器学习模型我们建议模型评估应该明确收集、分析和使用人类响应的群体级分布作为评估模型性能的 “gold” 软标签。计算认知和心理学模型的一个基本区别是澄清人们试图对哪些人类群体进行建模以及在什么层面上试图对它们进行建模——例如区分单个人类在单个领域的相关刺激中可能犯的算法、策略和错误的精细模型以及我们可以期望在许多主题中找到的整体反应模式。由于许多 AI 模型使用旨在衡量人群水平反应的目标在人群层面的人类数据上进行训练并且通常用于跨人群部署因此我们认为明确收集和评估模型捕捉人类受试者之间行为结构和变化的能力至关重要。 图 2参与者对其中一个刺激的评分分布。真值标签为 “unsupportive”。 人类认知的几乎所有方面——感知、决策和对任何数量的固有主观任务的常识性推理——都受到一系列复杂的个体差异和文化因素的影响。这些包括潜在认知能力或资源如工作记忆或注意力的差异Boogert 等人2018);先前经验、偏好和目标的差异这可能会影响他们在给定有限证据的情况下预测未知数或在一组选项和行动中进行选择的方式Ongchoco 等人2024);以及价值观、期望和经历的文化差异这些差异系统地影响了先前或决策策略Henrich 等人2010). 许多现有的基准测试收集人工注释但依靠多数投票来折叠人工对单个“真实”标签的响应从而有效地丢弃了有关人工判断范围和分布的宝贵信息。这可能会不成比例地导致模型与多数人的观点保持一致即使存在代表性不足的重要亚群Gordon 等人2022).在图像分类系统的背景下标签构建中这种信息丢失的其他陷阱已经提出其中用于训练模型的标签通常被视为具有多数票的标签;几项工作确定在注释器不确定性“软标签”上的分布上训练和评估此类模型揭示了并防止此类模型预测中的其他脆弱性Peterson 等人2019;Sucholutsky 等人2023 年一;Collins 等人2023b;Uma 等人2020).这些工作还强调了在标签上进行训练的潜在好处这些标签可以更好地捕捉人类信仰的丰富性以增强泛化和稳健性。我们主张在 AI 评估的背景下更广泛地考虑人类数据的分布。 AI Alignment 的研究人员特别是“多元对齐”也倡导类似的建议Kirk 等人2024;Sorensen 等人2024)但更局限于与决策中的价值观和偏好分布保持一致。在我们的论文中我们认为对注释者的建模分布应该扩展到所有认知任务包括感知、规划和推理并且应该超越文化和价值观。 设计和评估群体水平指标 一旦我们收集了人类数据的分布我们如何评估 AI 模型与认知建模一样研究人员经常对收集的数据部署一系列评估措施并对参与者群体中的亚组进行分析我们建议明确并寻求明确测量以下内容 • 报告用于将模型样本分布模型中的样本数量与参与者群体的样本数量相当与人类判断分布进行比较的指标例如概率分布的度量例如KL 散度或 Wasserstein 距离。这些指标可以确保模型不会简单地报告狭义的均值而在整个种群中几乎没有显示预期的分布多样性。 • 解释给定答案分布中的结构。例如如果分布具有不同的模式那么模型能否解释和一致地解释这些模式是如何产生的或者模式如何在相关问题中相互关联 • 衡量模型如何表示个体答案模式并解释不同人群的个体差异——例如它可以在多大程度上捕捉基于个人特征的条件模式例如多元主义者如何回答道德价值判断问题与功利主义者如何回答评估条件分布有助于进一步关注总体的哪些部分建模良好哪些部分可能更加分散。 4.3建议 3根据个体人类判断中的分级性评估模型分级和不确定性 正如不同的人可能会对任何给定的任务得出不同的结论一样任何一个人都可能不确定他们想要做出什么决定或他们想要采取什么计划。数十年的认知科学研究表明分级信念和不确定性是人类认知的重要组成部分驱动着人类细微的感知、推理和行为特沃斯基和卡尼曼1974;Chater Manning2006;Griffiths 等人2024).我们鼓励基准测试构建者考虑不仅使用多项选择题来引出、维护和衡量对硬标签的判断而且考虑使用软标签的个人注释者的分级判断。收集和考虑用于捕获人类的分级判断的软标签一直是认知建模的标准做法最近在计算机视觉的背景下得到了提倡Sucholutsky 等人2023b)、人机交互Collins 等人2023 年一)以及更广泛地从专家那里获得知识OHagan 等人2006;奥哈根2019). 图 3参与者在所有 300 种刺激物中的软标签评分分布。每个评级都映射到 0 或 100 的真实标签上但 625 个评级除外其底层标签为 50中性。 需要注释者只选择一个选项的离散多项选择题通常对于此类度量来说太粗糙了。在我们的数据收集中我们发现57.69% 的评级介于20自80反映了参与者的评分判断这些判断没有被二进制标签反映出来示例见图 3 和附录。 我们呼吁 AI 基准测试考虑从注释者那里收集和评估软标签以衡量他们的分级判断原因如下。首先分级判断更好地反映了现实世界场景的细微差别。现实世界的决策很少涉及绝对的二元选择。考虑一下强度不同的情绪或道德判断两个错误的行为可能需要不同程度的谴责。分级响应允许基准测试捕获这些关键的区别和细微差别反过来又可用于训练模型以更好地泛化到新情况Peterson 等人2019). 其次软标签捕捉了许多任务中普遍存在的固有不确定性。二元选择往往不能代表人类信仰和判断的全部范围。个人可能会倾向于一种选择同时承认一些怀疑。这种不确定性是现实世界推理和决策的基础。量化不确定性可实现灵活的规划、自适应策略和适当的风险评估这些都是强大的 AI 系统的基本技能。虽然有些人可能会争辩说具有硬标签的大样本可以近似于不确定性但这种方法取决于独立且同分布 i.i.d. 样本的假设。然而由于个人和群体层面的差异这种假设在许多实际案例中通常不成立。再一次考虑一下 The Dress 的例子。对所有样本进行平均判断将显示两个颜色标签之间的高度不确定性。然而事实上每个人都对他们所看到的非常坚定。 为了深入了解模型是否与人类相似我们敦促对任何单个注释者可能具有的丰富、结构化的信念进行更细致的考虑。研究人员可能会担心收集人类不确定性会让人觉得“混乱”。经常听到的对不确定性集合的反驳是人们在不确定性中被“错误校准”。然而几十年的认知科学研究已经设计了研究来检验人们的概率判断以便研究和模拟人类认知克伦1991;特南鲍姆1998;Chater Manning2006;Windschitl Wells1996;OHagan 等人2006;Griffiths 等人2024).我们鼓励 AI 基准测试的设计者参与此类文献并了解人类判断中的这些不确定性以评估模型的类人行为。 4.4建议 4根据现有认知理论的元审查确定任务 许多 AI 基准测试侧重于测试人类和机器对各种常识性推理任务的判断从对象识别到对文本中的情感进行分类。但是世界上的任务数量是无限的我们不可能有无限多的基准测试。为了得出有关 AI 模型的可推广结论应仔细设计任务以衡量模型的认知能力是否与人类相似埃尔南德斯-奥拉洛2017).为此基准测试应该从目标心理结构的理论开始概述其子组成部分以及它们如何在可观察的行为中表现出来。然后该理论框架指导基准的构建确保任务有效地探测感兴趣的特定认知能力并提供有关 AI 在多大程度上以类似人类的方式拥有这些心理结构的有意义的见解。 最近人们对在 LLM 中探索类似人类的心理能力的兴趣激增例如人格特征、推理、计划等。Hagendorff 等人2023;Safdari 等人2023;Coda-Forno 等人2024).我们鼓励进行这些调查但我们强调现有实践中的两个常见陷阱。 一个常见的陷阱是利用贫乏的理论来指导基准的创建。例如已经创建了许多基准来评估机器的心理理论 ToM它指的是人类对其他代理的心理状态进行推断的能力。AI 的 ToM 基准测试通常或专门使用 Sally-Anne 测试又名错误置信测试例如Le 等人。2019传统上在发展心理学中用于评估儿童发展心智理论的时间。这些评估的结果导致 LLM 中出现 ToM 等主张科金斯基2024;Gandhi 等人2024).然而ToM 包含超出 Sally-Anne 测试评估的子成分的广泛子成分。在全面的综述中Beaudoin 等人 2020)确定了心理学研究以前使用的 220 个 ToM 任务和措施。其他作者也质疑 Sally-Anne 测试在评估儿童 ToM 方面的有效性和有效性布鲁姆和德国2000).由于只专注于错误信念任务许多关于评估 AI 模型 ToM 的研究反映了对认知心理学中解释的 ToM 元理论的理解不足。相反对智能系统进行基准测试应该从认知结构的元理论开始并以认知理论为基础设计任务包括对其子领域、分类法和度量的全面调查。 另一个常见的陷阱是在评估 AI 模型时天真地使用和适应心理测试。通过一些心理测试不足以声称机器中存在某些认知能力。再次以 Sally-Anne 测试为例。尽管它可能有效地测量儿童的 ToM但此类测试不足以评估 AI 的 ToM因为 AI 模型经过专门训练可以在这些测试中表现出色而人类则不然。因此盲目地采用心理量表并将其应用于 AI 基准以声称 AI 与人类相似可能会导致误导性结论并且结果不太可能推广到现实世界中更丰富的任务。相反我们鼓励 AI 基准测试创建者以心理学理论为指导以心理测试为灵感来设计评估 AI 认知能力的任务但任务应该更丰富、更扎实、更复杂。过去几十年认知科学的研究引入了许多丰富的交互式范式来研究和评估模型的社会认知例如Baker 等人 2017),Jara-Ettinger 等人 2020)和Ying et al. 2023)用于从人类中提取复杂和分级的推理模式参见图 4 作为示例。在下一节中我们将讨论设计此类任务的一些具体建议。 图 4餐车实验Baker 等人 2017)研究人类的社会推理。在此域中参与者观察代理移动以从食品卡车获取食物。餐车分为三种黎巴嫩 L、墨西哥 M 和韩国 K。代理人看不到墙后面是什么食品卡车除非他们走到墙后面检查。在观察了代理的轨迹后参与者被要求以李克特量表判断代理对餐车的偏好以及他们对餐车在墙后是什么的看法。结果显示了人类在不同代理轨迹中的分级判断。
4.5建议 5设计生态有效且认知丰富的任务 基准测试任务应该是生态有效的反映现实世界场景的复杂性和模糊性以有效地评估专为类似人类的推理和交互而设计的 AI 系统。许多现有的基准测试侧重于简单、直接的任务通常不包括那些注释者间一致性较低的任务。然而现实世界的挑战很少以如此简化的形式出现。人类经常在涉及不完整信息、上下文细微差别和模棱两可的刺激的复杂情况下导航。如果我们想深入了解 AI 系统在人类与现实世界互动的多样性环境中哪些方式与人类相似或不像AI 基准测试必须超越这些简化的情况。接下来我们提供了几个关键建议用于在更自然的环境中引发人类和模型的有趣和丰富的反应模式从而描绘出 “类人 ”的更广泛含义。 认知能力的整合 基准测试应包含需要集成多个认知过程的任务包括多模态推理和交互。例如理解句子背后的意图可能需要考虑对话上下文、说话者的语气甚至视觉线索。图 1 所示的餐车示例4 要求观察者对代理的感知和心理状态以及他们以目标为导向的行动和计划进行建模。通过整合这些复杂性基准测试可以更好地评估 AI 处理细微的真实情况的能力。 人类行为的自然主义痕迹 基准测试还可以考虑比较 AI 系统在更丰富的跟踪中的性能这些跟踪是关于人类如何解决和创造问题、做出决策以及通过潜在的多次交互其中可能包括师生互动的跟踪Wang 等人2024)或其他专业人士的工作流程例如数学家如何提出证明Frieder 等人2024). 系统性消融术 通过系统地隐瞒或提供特定信息或上下文来消融任务可以揭示不同的因素如何影响人类和 AI 的判断和不确定性。比较消融刺激和完全刺激的性能可以为人类和 AI 系统在各种上下文信息设置下的推理过程提供有价值的见解这在现实世界中很常见。 结构性歧义 涉及模棱两可的感知和推理挑战的任务如 The Dress 中所示的示例可以在人类中引发不同的反应模式。虽然一些基准由于注释者之间的一致性较低而排除了此类刺激但我们认为这些模棱两可的情况对于理解人类认知的细微差别和评估 AI 处理不确定性的能力至关重要。排除它们会限制基准测试评估实际适用性的能力。相反我们鼓励关注任务是否困难这可能涉及收集新的人为预期难度评级周 et al.2024) 并创建更多此类任务;例如可以通过根据先前人类的响应修改任务来迭代创建更模糊或更具挑战性的任务如下所示Collins 等人 2022)或通过其他迭代采样过程Harrison 等人2020;Sanborn Griffiths2007). 通过整合这些设计原则我们可以创建基准以评估 AI 模型在类似人类的推理、交互和适应复杂的真实场景方面的能力。 5替代视图和开放挑战 在本节中我们将讨论一些关于对类人智能进行基准测试的挑战和替代观点/论点。 5.1我们需要类人的 AI 吗 我们承认某些高度专业化的 AI 应用例如蛋白质结构预测Jumper 等人2021)或天气预报Lam 等人2023;Bodnar 等人2024)不需要类似人类的特征。这些域的基准测试不在本文的讨论范围之内。我们的重点在于核心认知能力这些能力使机器能够在现实世界中与人类进行推理、互动和协作Collins 等人2024年). 有些人可能会争辩说即使在常识性推理任务中AI 系统也只需要有效地执行任务并且易于理解或解释而不必模仿人类认知。我们从两个方面来探讨这个观点。首先我们重申了第 2 节中概述的类人 AI 的众多好处包括可能增强的模型性能稳健性和灵活的泛化、其他人的可预测性以及保证类人认知的应用潜力例如代理模拟。 其次即使明确的目标不是创建类似人类的 AI遵守本文中提出的准则并参考认知建模的最佳实践也可以提供对 AI 系统的宝贵见解。来自认知科学的见解已经被用来更好地理解 LLMBinz Schulz2023).通过将 AI 在以人为中心的基准上的性能与实际的人类响应进行比较我们可以确定 AI 系统偏离类人智能的特定认知能力。这种比较分析揭示了 AI 的推理和决策能力的哪些方面与人类思维一致哪些方面存在分歧为 AI 安全和治理提供了重要信息并告知我们使用这些系统的方式。此外了解这些差异有助于 AI 工程师和系统用户开发更准确的系统心智模型Bansal 等人2019;Steyvers Kumar2023)促进更明智的设计和有效的使用。 5.2人类响应中的偏见和错误 将人类数据用于 AI 基准测试的一个关键考虑因素是人类判断中可能存在的偏差和错误。由于认知资源有限认知科学研究广泛记录了人类在理性推理和决策方面的局限性格里菲斯2020;Lieder Griffiths2020)或系统性偏差特沃斯基和卡尼曼1974).这就提出了一个问题AI 系统是否应该复制这些人类认知限制 这里没有明确的答案。虽然我们希望避免将一些偏见融入此类模型例如有害的种族或性别偏见但其他认知偏见可能有助于决策(Haselton2009自适应;Lieder Griffiths2020)对于准确建模人类行为至关重要早期证据表明当今的一些模型并未隐含地学习这种错误模式这可能会阻碍人类与 AI 的交互Liu 等人2024).例如人类损失厌恶是一种根深蒂固的认知偏差在经济决策中起着重要作用。对于旨在模拟人类行为或在人类经济系统内有效交互的 AI 系统来说对此类偏差进行建模可能至关重要。相反没有任何认知偏差的 AI 可能会在与人类的协作决策中造成摩擦或效率低下。 最终考虑到 AI 系统的具体目标和应用必须根据具体情况评估 AI 应在多大程度上复制人类认知偏差。尽管如此为了提供最大的灵活性并支持不同的研究目标我们建议基准测试创建者在可行的情况下同时提供人类数据和“无偏见”标签。这种方法使研究人员能够根据其特定需求选择合适的数据无论是训练 AI 系统做出没有偏见和错误的高度复杂的决策还是准确建模人类行为以实现无缝的人类与 AI 协作或代理模拟。 5.3人类数据收集的可扩展性和实用性 对 AI 基准测试的人类数据收集的可扩展性和实用性的担忧是有道理的。收集人工判断可能是资源密集型的可能会阻碍快速的基准开发特别是如果这种收集涉及每个注释者引出许多属性Wu 等人2023;Collins 等人2024b;Chung 等人2019;Kirk 等人2024).然而我们认为优先考虑质量而不是数量并利用现成的工具使我们能够开始应对这些挑战。 首先基准有效性不一定与规模相关。一个较小的、精心策划的数据集专注于具有挑战性和边缘案例可能比一个充满冗余或琐碎示例的大型数据集更具洞察力。通过专注于高质量、具有诊断价值的刺激我们可以最大限度地提高基准测试的能力以揭示 AI 系统和人类中有趣且丰富的响应模式同时最大限度地减少所需的数据收集工作。 其次Amazon Mechanical Turk 和 Prolific 等众包平台的进步显著简化了大规模数据注释格里菲斯2015).这些工具提供了对不同人群的访问使研究人员能够有效地收集具有代表性的样本。但是保持数据质量仍然至关重要。实施严格的排除标准、明确的说明和注意力检查对于确保所收集数据的可靠性和有效性至关重要。有关数据众包的最佳实践我们建议读者参考Stewart et al. 2017). 通过关注质量而不是数量并有效利用可用的众包工具可以成功缓解用于基准开发的人工数据收集挑战。然而我们敦促进行大量的额外研究以使我们对人类的评估更具可扩展性特别是当我们不仅在单个决定或推理轨迹中考虑人类相似性而且在与他人的互动中Lee 等人2023;Collins 等人2024 年一;Lee 等人2024;Wang et al.2024). 6结论 AI 系统越来越多地与人类一起部署。描述 AI 系统与人类相似或不与人类相似的方式对于确保我们能够了解我们可以在何处以及如何与这些 AI 系统交互并帮助我们设计本身可能更强大、更灵活的系统就像人类一样至关重要。然而要真正了解 AI 系统是否“类似人类”需要仔细评估。在这项工作中我们鼓励 AI 评估的构建者关注认知建模数十年的研究。认知科学家一直在努力研究如何衡量人类推理和决策的问题;AI 研究人员将处于有利地位可以在这项工作的基础上再接再厉。具体来说我们鼓励 AI 从业者确保如果他们声称系统“类似人类”或想要了解系统是否类似则必须收集人工标签。我们鼓励研究人员倾向于而不是远离可变性和不确定性观察注释者的回答分布并从每个注释者那里捕捉分级的信念。此外人工智能系统所依据的任务需要仔细的理论驱动设计以及在更具生态效益的环境中进行开发。AI 系统越来越强大;我们需要更强大、更可靠的评估不仅如果我们想建立更多我们理解的、与人类兼容的 AI 思想伙伴而且如果我们想深入了解自己。