快速做网站套餐,万能浏览器下载官方免费,自己开发小程序多少钱,用muse做网站OLMo: Accelerating the Science of Language Models OLMo 以促进语言模型科学之名 摘要
语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增#xff0c;所以#xff0c;其中最强大的模型已经闭源#xff0c;控制在专有接口之中#…
OLMo: Accelerating the Science of Language Models OLMo 以促进语言模型科学之名 摘要
语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增所以其中最强大的模型已经闭源控制在专有接口之中保持特别是训练数据、架构和开发的重要的细节秘而不宣。 考虑到科学地研究这些模型的细节的重要性包括他们的偏见和潜在风险我们坚信能够把玩强大的、真正开源的语言模型对于科学研究社区是非常重要的。为了这个目的这份技术报告详述了 OLMo 的第一个发行版这包括一个达到高水准的、真正开源的语言模型和它构建和研究语言模型科学的的整个框架流程。不同于许多之前那些尝试他们仅仅发布了模型的权重和推理代码我们发布了OLMo以及它的整个框架这包括训练数据和训练与评估代码。我们希望这些发布将赋能开源研究社区并且激励一个新的创新浪潮。
Weights https://huggingface.co/allenai/OLMo-7B Code https://github.com/allenai/OLMo Data https://huggingface.co/datasets/allenai/dolma Evaluation https://github.com/allenai/OLMo-Eval Adaptation https://github.com/allenai/open-instruct WB Logs https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5
1. 引言 语言模型成为NLP技术的中心已经很多年了(Rosenfeld, 2000; Bengio et al., 2003; Mikolov et al., 2013; Peters et al., 2018; Brown et al., 2020)。最近因为大规模的预训练和人类的对齐标注它们已经成为了商业上的贵重物品 (OpenAI, 2023)。然而随着它们的商业价值的已然增加大模型已经控制在专有接口之中而且大量重要细节也被秘而不宣。我们相信能够充分把玩开源语言模型对于科学研究社区能够对这些模型做科学的研究、对它们的优点和弱点的研究、对它们的偏差和风险的研究是非常重要的。据此我们介绍了OLMo一个达到高水准的、真正开源的语言模型和框架用来构建、研究和促进语言模型并且给出了训练数据、训练和评估的源代码中间模型检查点、和训练日志。 未完待续 ... ...