网站建设后续说明,重庆重大新闻事件,学做彩票网站,网站备案需要年检吗前言#xff1a;大型语言模型#xff08;LLMs#xff09;的发展历程可以说是非常长#xff0c;从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初#xff0c;LLM的训练过程只关注预训练#xff0c;但后来逐步扩展到了包括预训练和后训练在内的完整… 前言大型语言模型LLMs的发展历程可以说是非常长从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初LLM的训练过程只关注预训练但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程而这些在ChatGPT的推广下变得广为人知。
自ChatGPT首次发布以来训练方法学也在不断进化。在这几期的文章中我将回顾近1年中在预训练和后训练方法学上的最新进展。
关于LLM开发与训练流程的概览特别关注本文中讨论的新型预训练与后训练方法
每个月都有数百篇关于LLM的新论文提出各种新技术和新方法。然而要真正了解哪些方法在实践中效果更好一个非常有效的方式就是看看最近最先进模型的预训练和后训练流程。幸运的是在近1年中已经有四个重要的新型LLM发布并且都附带了相对详细的技术报告。
在本文中我将重点介绍以下模型中的Meta的 Llama 3.1语言模型 预训练和后训练流程
• 阿里巴巴的 Qwen 2
• 苹果的 智能基础语言模型
• 谷歌的 Gemma 2
• Meta AI 的 Llama 3.1
我会完整的介绍列表中的全部模型但介绍顺序是基于它们各自的技术论文在arXiv.org上的发表日期这也巧合地与它们的字母顺序一致。
4. Meta AI的Llama 3.1
Meta发布的Llama LLM新版本总是大事。这次发布伴随着一份92页的技术报告《Llama 3模型群》。最后在本节中我们将查看上个月发布的第四份重要模型论文。
4.1 Llama 3.1概述
除了发布一个巨大的4050亿参数模型Meta还更新了他们之前的80亿和700亿参数模型使它们在MMLU性能上略有提升。 MMLU基准测试不同模型的表现。 虽然Llama 3像其他最近的LLM一样使用群组查询注意力但令人惊讶的是Meta AI拒绝使用滑动窗口注意力和混合专家方法。换句话说Llama 3.1看起来非常传统重点显然放在预训练和后训练上而非架构创新。
与之前的Llama版本相似它的权重是公开可用的。此外Meta表示他们更新了Llama 3的许可证现在终于可以被允许使用Llama 3进行合成数据生成或知识蒸馏以改善其他模型。
4.2 Llama 3.1预训练
Llama 3在庞大的15.6万亿标记数据集上进行训练这比Llama 2的1.8万亿标记有显著增加。研究人员表示它支持至少八种语言而Qwen 2能处理20种语言。
Llama 3的一个有趣方面是它的词汇量为128,000这是使用OpenAI的tiktoken分词器开发的。对于那些对分词器性能感兴趣的人我在这里做了一个简单的基准比较。
在预训练数据质量控制方面Llama 3采用了基于启发式的过滤以及基于模型的质量过滤利用像Meta AI的fastText和基于RoBERTa的分类器这样的快速分类器。这些分类器还有助于确定训练期间使用的数据混合的上下文类别。
Llama 3的预训练分为三个阶段。第一阶段涉及使用15.6万亿标记进行标准的初始预训练上下文窗口为8k。第二阶段继续预训练但将上下文长度扩展到128k。最后一个阶段涉及退火进一步提高模型的性能。让我们更详细地看看这些阶段。
4.2.1 预训练I标准初始预训练
在他们的训练设置中他们开始使用由4096个序列长度的400万标记组成的批次。这意味着批量大小大约为1024标记假设400万这个数字是四舍五入得到的。在处理了首批252百万标记后他们将序列长度增加到8192。在训练过程中处理了2.87万亿标记后他们再次将批量大小翻倍。
此外研究人员并没有在整个训练过程中保持数据混合不变。相反他们调整了训练过程中使用的数据混合以优化模型学习和性能。这种动态处理数据的方法可能有助于改善模型跨不同类型数据的泛化能力。
4.2.2 预训练II继续预训练以延长上下文
与其他一步增加其上下文窗口的模型相比Llama 3.1的上下文延长是一个更渐进的方法在这里研究人员通过六个不同阶段将上下文长度从8000增加到128000标记。这种分步增加可能让模型更平滑地适应更大的上下文。
此过程使用的训练集涉及8000亿标记约占总数据集大小的5%。
4.2.3 预训练III在高质量数据上退火
对于第三阶段预训练研究人员在一个小但高质量的混合上训练模型他们发现这有助于改善基准数据集上的性能。例如在GSM8K和MATH训练集上退火提供了在相应的GSM8K和MATH验证集上的显著提升。
在论文的3.1.3节中研究人员表示退火数据集大小为400亿标记总数据集大小的0.02%这400亿退火数据集用于评估数据质量。在3.4.3节中他们表示实际的退火只在4000万标记上进行退火数据的0.1%。 Llama 3.1预训练技术总结。 4.3 Llama 3.1后训练
在后训练过程中Meta AI团队采用了一种相对简单的方法包括监督微调SFT、拒绝采样和直接偏好优化DPO。
他们观察到像带PPO的RLHF这样的强化学习算法与这些技术相比稳定性较低且更难扩展。值得注意的是SFT和DPO步骤在多轮中反复迭代融合了人工生成和合成数据。
在描述更多细节之前他们的工作流程如下图所示。 来自Llama 3.1论文的带注释的图表描述了后训练过程。 请注意尽管他们使用了DPO但他们也开发了一个奖励模型就像在RLHF中一样。起初他们使用预训练阶段的一个检查点训练奖励模型利用人工标注数据。这个奖励模型随后被用于拒绝采样过程帮助选择适当的提示进行进一步训练。
在每一轮训练中他们不仅对奖励模型还对SFT和DPO模型应用了模型平均技术。这种平均涉及合并最近和以前模型的参数以稳定并改善随时间的性能。
对于那些对模型平均的技术细节感兴趣的人我在我早期文章《理解模型融合和权重平均》的部分中讨论了这个话题文章标题为《模型融合、专家混合以及向更小LLM的迈进》。
总之核心是一个相对标准的SFT DPO阶段。然而这个阶段在多轮中重复。然后他们在拒绝采样中加入了一个奖励模型像Qwen 2和AFM那样。他们还使用了像Gemma那样的模型平均然而这不仅适用于奖励模型而是涉及所有模型。 Llama 3.1后训练技术总结。
4.4 结论
Llama 3模型保持相当标准与早期的Llama 2模型类似但采用了一些有趣的方法。值得注意的是庞大的15万亿标记训练集使Llama 3与其他模型区别开来。有趣的是像苹果的AFM模型一样Llama 3也实施了三阶段预训练过程。
与其他最近的大型语言模型不同Llama 3没有采用知识蒸馏技术而是选择了一条更直接的模型开发路径。在后训练中模型使用了直接偏好优化DPO而不是其他模型中流行的更复杂的强化学习策略。总的来说这种选择很有趣因为它表明了通过简单但经过验证的方法精炼LLM性能的重点。
5. 主要收获
从本文讨论的这四个模型中我们可以学到什么阿里巴巴的Qwen 2苹果的基础模型AFM谷歌的Gemma 2以及Meta的Llama 3
这四个模型在预训练和后训练上采取了略有不同的方法。当然方法论有所重叠但没有哪个训练流程是完全相同的。在预训练方面一个共有的特征似乎是所有方法都使用了多阶段预训练流程其中一般的核心预训练之后是上下文延长有时还有高质量的退火步骤。下面的图表再次一览无余地显示了预训练中使用的不同方法。 预训练所用技术概述 在后训练方面也没有哪个流程是完全相同的。看来拒绝采样现在已经成为后训练过程中的常见要素。然而当谈到DPO或RLHF时还没有共识或偏好无意中的双关语。 后训练所用技术概述 因此总的来说没有单一的配方而是有许多路径可以开发出高性能的LLM。
最后这四个模型的表现大致相当。不幸的是其中几个模型还没有进入LMSYS和AlpacaEval排行榜所以我们还没有直接的比较除了在MMLU和其他多项选择基准上的得分。