网站建设规划书的空间,linode wordpress 教程,芜湖公司网站建设,建设学校网站前的需求分析报告2001.08361 (arxiv.org)
论文研究语言模型在交叉熵损失下的性能经验缩放定律#xff1a;模型损失#xff08;性能#xff09;随模型大小、数据集大小和用于训练的计算量呈现缩放为幂律的关系#xff0c;有些趋势跨越超过 7 个数量级。其他模型架构细节 #xff08;如网络…2001.08361 (arxiv.org)
论文研究语言模型在交叉熵损失下的性能经验缩放定律模型损失性能随模型大小、数据集大小和用于训练的计算量呈现缩放为幂律的关系有些趋势跨越超过 7 个数量级。其他模型架构细节 如网络宽度或深度 在很宽的范围内影响最小使用简单方程来控制过拟合对模型/数据集大小的依赖性以及训练速度对模型大小的依赖性这些依赖关系使我们能够计算预算固定的情况下确定最佳分配方案。较大的模型明显具有更高的样本效率因此最佳计算效率的训练需要在相对少量的数据上训练非常大的模型并在收敛之前显著停止。
主要发现如下 性能高度取决于规模弱于模型形状 模型性能最强依赖于规模规模由三个因素组成模型参数的数量 N 不包括 embeddings数据集的大小 D以及计算量 C 用于训练。在合理的范围内性能对其他架构超参数如深度与宽度的依赖性非常弱。(第3)
平滑幂律 性能与三个比例因子中的每一个都有幂律关系 N, D, C 当不被其他两个瓶颈所限制时趋势跨度超过 6 个数量级 (见图1)。我们没有观察到上端偏离这些趋势的迹象尽管业绩在达到零损失之前最终必须趋于平稳。(第3) 过拟合的普遍性 只要我们扩大规模性能就会得到可预期的改善 N 和 D 同时但进入收益递减的制度如果其中之一 N 或 D 是固定的而另一个是增加的。性能损失可预测地取决于比率N0.74/D 意味着每当我们将模型大小增加 8 倍时我们只需要将数据增加大约 5 倍就可以避免损失。(第4) 培训的普遍性 训练曲线遵循可预测的幂律其参数大致与模型大小无关。通过外推训练曲线的早期部分我们可以大致预测如果我们训练更长的时间将获得的损失。(第5) 传输性能随测试性能的提高而提高 当我们在文本上评估模型的分布不同于它们在其上训练的分布时结果与训练验证集上的结果强相关损失的偏移大致恒定——换句话说转移到不同的分布会招致恒定的惩罚但其他方面的改进大致与训练集上的性能一致。(第3.2.2) 样品效率 大模型比小模型的样本效率更高只需更少的优化步骤就能达到相同的性能水平 (图2)和使用较少的数据点 (图4). 收敛效率低 在固定计算预算范围内工作时 C 但对模型大小没有任何其他限制 N 或可用数据D我们通过训练获得最佳性能非常大的模型并停止收敛性明显不足 (参见图3)。因此最大计算效率的训练将远比基于训练小模型收敛的预期的样本效率要高得多数据需求增长非常缓慢随着D ∼ C0.27 使用训练计算。(第6) 最佳批量 训练这些模型的理想批量大小大致是损失的幂并且可以通过测量梯度噪声规模来确定 [MKAT18]对于我们可以训练的最大模型它在收敛时大约是 1-2 百万个令牌。(第5.1) 综上所述这些结果表明随着我们适当地扩大模型大小、数据和计算语言建模性能可以平滑和可预测地提高。我们预计与当前模型相比更大的语言模型将表现更好并具有更高的样本效率。
1.2 标度定律总结 当性能仅受非嵌入参数数量的限制时可以使用幂律预测训练为自回归模型语言的 Transformer 的测试损失 N数据集大小 D或最佳分配的计算预算 Cmin (参见图1): 1. 对于参数数量有限的模型在足够大的数据集上训练为收敛
2. 对于使用有限数据集训练的大型模型提前停止 3. 当使用有限的计算量进行训练时一个足够大的数据集、一个最优大小的模型和一个足够小 的批处理大小 (使最优3 计算的使用) 等式(1.1) 和(1.2) 建议当我们增加模型大小时我们应该根据 事实上我们发现 有一个单一的方程结合(1.1) 和(1.2) 控制着同时依赖 N 和 D 并控制过拟合的程度 与图中左图所示的配合4. 我们推测这种函数形式也可以参数化其他生成式建模任务的训练对数似然。 当对给定模型进行有限数量的参数更新步骤训练时 S 在无限大的数据极限中经过一个初始的瞬态周期后学习曲线可以通过见右图精确拟合4) 其中和和是优化步骤参数更新的最小可能数量使用等式估算(5.4). 在固定计算预算范围内进行培训时 C但没有其他约束方程(1.6) 导致预测最优模型大小 N最佳批量大小 B最佳步数 S 和数据集大小 D 应生长为
与这与经验上的最优结果非常吻合和 作为计算预算 C 增加它应该主要用于更大的模型而不会大幅增加训练时间或数据集大小 (见图3)。这也意味着随着模型的规模越来越大它们的样本效率越来越高。在实践中由于硬件限制研究人员通常训练较小的模型的时间比最大计算效率要长。最佳性能取决于作为幂律的总计算量 (参见等式(1.3)). 我们为方程提供了一些基本的理论动因(1.5)、对学习曲线拟合及其对训练时间的影响的分析以及对每个 token 的结果的细分。我们还对 LSTM 和 Rejection Transformer 做了一些简单的比较 [DGV18].