下列关于网站开发中网页,怎样做金融理财网站,网站如何做那种诱导广告,网站关于我们怎么做单页面模板本文是LLM系列文章#xff0c;针对《Holistic Evaluation of Language Models》的翻译。 语言模型的整体评价 摘要1 引言2 前言3 核心场景4 一般指标5 有针对性的评估6 模型7 通过提示进行调整8 实验和结果9 相关工作和讨论10 缺失11 不足和未来工作12 结论 摘要
语言模型针对《Holistic Evaluation of Language Models》的翻译。 语言模型的整体评价 摘要1 引言2 前言3 核心场景4 一般指标5 有针对性的评估6 模型7 通过提示进行调整8 实验和结果9 相关工作和讨论10 缺失11 不足和未来工作12 结论 摘要
语言模型LM正在成为几乎所有主要语言技术的基础但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价HELM以提高语言模型的透明度。首先我们对LM感兴趣的潜在场景即用例和度量即需求的广阔空间进行分类。然后我们根据覆盖率和可行性选择一个广泛的子集注意缺失或代表性不足的部分例如被忽视的英语方言的问题回答、可信度指标。其次我们采用多指标方法我们尽可能87.5%的时间为16个核心场景中的每一个测量7个指标准确性、校准、稳健性、公平性、偏差、毒性和效率确保超出准确性的指标不会半途而废并确保模型和指标之间的权衡清楚地暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估以更深入地分析特定方面如知识、推理、记忆/版权、虚假信息。第三我们对所有42个场景中的30个突出语言模型跨越开放、有限访问和封闭模型进行了大规模评估其中包括21个以前未在主流LM评估中使用的场景。在HELM之前平均只有17.9%的核心HELM场景对模型进行了评估一些突出的模型没有共享一个共同的场景。我们将其提高到96.0%现在所有30个模型都在标准化条件下的一组核心场景和指标上进行了密集的基准测试。我们的评估涵盖了25个关于不同场景、指标和模型之间相互作用的顶级发现。为了实现完全透明我们公开发布了所有原始模型提示和完成以进行进一步分析并提供了一个通用的模块化工具包用于轻松添加新的场景、模型、指标和提示策略。我们打算让HELM成为社区的活基准不断更新新场景、指标和模型。
1 引言
2 前言
3 核心场景
4 一般指标
5 有针对性的评估
6 模型
7 通过提示进行调整
8 实验和结果
9 相关工作和讨论
10 缺失
11 不足和未来工作
12 结论
语言模型改变了人工智能开创了基础模型的范式。现代语言模型的影响远远超出了研究范围语言模型正在迅速产品化成为重要的、无处不在的语言技术我们预计这种技术在不久的将来只会增加。目前我们对语言模型缺乏透明度鉴于其快速增长和迅速发展的影响这一点尤其令人担忧作为一个社区我们不了解语言模型的整体。因此我们在这项工作中推动了整体评估因为我们认为整体评估是为语言模型提供必要透明度的关键手段。 透明度带来信任和标准。将基准视为社会变革的模型因为它们指导了人工智能系统的发展我们更广泛的目标是将基础模型从不成熟的新兴技术转变为支持人类繁荣的可靠工具。考虑到这一目标我们认识到人工智能基准测试的历史和轨迹与制度特权相一致。基准制定议程并引导进步我们应该追求全面、多元和民主的基准。考虑到基准驱动变革的低调但重要的力量这反过来表明基准设计赋予了力量我们展望了HELM的目标及其局限性。我们希望社区将对HELM进行询问、采纳和改进以实现全面评估的目标。通过这种方式我们希望对语言模型和其他类别的基础模型进行全面评估将产生有用、负责任和有益于社会的技术。