旅游网站模板设计,企业做网站有什么作用,福州网站制作维护服务,企业营销网站建设公司哪家好随着预训练语言模型规模的快速增长#xff0c;在下游任务上精调模型的成本也随之快速增加。这种成本主要体现在两方面上#xff1a;一#xff0c;计算开销。以大语言模型作为基座#xff0c;精调的显存占用和时间成本都成倍增加。随着模型规模扩大到10B以上#xff0c;几乎…随着预训练语言模型规模的快速增长在下游任务上精调模型的成本也随之快速增加。这种成本主要体现在两方面上一计算开销。以大语言模型作为基座精调的显存占用和时间成本都成倍增加。随着模型规模扩大到10B以上几乎不可能在消费级显卡或者单卡上进行训练二存储开销。如果对于每一个下游任务我们都需要精调全量模型并存储相应的参数那么所需要的存储开销也是相当惊人的。以GPT-3 175B为例为仅仅一个任务存储精调模型的全量参数就需要350/700GB取决于精度。因此如何在兼顾精调的表现的同时提升效率是一个重要的研究问题。 本篇文章将介绍差值精调策略delta tuning。这类方法的核心思路是通过只训练少量参数并冻结其他模型参数逼近甚至达到全量参数精调的效果。具体而言现有的主流方法可以总结为三类添加参数方法addition-based限制参数方法Specification-based和重参数化方法reparameterization-based。
一、添加参数方法
1.1 Adapter方法 Houlsby et al.[1]最早提出了adapter方法即在语言模型的每个transformer层中添加少量可学习的参数并冻结其余参数如图所示。为了减少参数量作者采用了两层FFN作为adapter的网络结构进行降维-升维。为了使得初始化结果等价于原始网络作者采用了残差连接并零初始化adapter结构。实验表明在多项任务上仅使用0.5%-8%的训练参数就能逼近全量参数精调的效果并且训练速度能提升约60%。需要注意的是由于引入了串行的额外模块模型的推理速度会略微下降4%-6%。
1.2 连续化提示学习
1.2.1 Prompt tuning[2] 提示工程是语言模型随着规模增大而产生的新范式。针对不同的任务提示工程会在输入文本中添加特定的token并预测[MASK]位置的单词然后将预测结果映射回任务的标签空间如图所示。随着近几年的探索提示工程经历了手工设计-离散空间搜索-连续空间搜索的几个阶段。为了使得prompt模板可以通过梯度下降学习在连续空间搜索这一方式中prompt直接作为固定长度的embedding添加到了输入层并且这部分参数是可学习的。
由于只有prompt embedding的参数需要调整因此prompt tuning的可学习参数也是相当少的。但相对应的学习这部分参数的难度会较大即训练的收敛速度会比较慢而且它的效果对于prompt的长度、初始化方式等非常敏感。此外在模型的规模比较小时prompt tuning的表现和全量精调以及其余方法的差距都比较大。随着模型规模的增长这个差距才会逐渐缩小。 1.2.2 Prefix tuning[3]
Prompt tuning只在embedding层加入了可学习的参数但transformer在计算的过程中每层都会计算self-attention因此每层隐状态的输入长度都是PN的P为prompt长度N为原始文本长度。Prefix tuning的做法更进一步将每层模板对应位置都替换成了可学习参数而非通过attention从上一层聚合。为了提升训练的稳定性作者同时使用了重参数化技巧降低embedding的维度并通过MLP将其升维到隐状态的语义空间中。
作者在文本生成任务上进行了实验。令人惊讶的是在低资源少样本的训练条件下prefix tuning的效果能超过全量精调。这有可能是出于全量精调的过拟合问题影响了其泛化性能。
二、限制参数方法
为了缩减训练的参数量一个自然的想法是我们直接冻结部分参数不变然后在剩余参数上进行梯度下降学习。具体到选取哪些参数有些研究者提出了可学习的方法但出于简化考虑我们只介绍几种经验性选取的方式。
一个出于直觉的考虑是越靠近输入的层的语义空间编码的语义更通用越靠近输出的层的语义空间编码的语义更贴近具体的任务。因此一个直观的做法是只精调最后一层或最后几层的参数维持其余参数不变。除此之外Zaken et al.[4]发现只精调网络中所有的误差项bias维持矩阵乘法权重不变也能在下游任务上取得95%的表现。
三、重参数化方法
语言模型的神奇之处在于只需要少量数百-数千条训练样本我们就能训练海量数亿-百亿的参数并且能取得良好的泛化效果。关于这个现象Aghajanyan et al.[5]提出的解释是PLM往往具有很低的本征维度。
什么是本征维度呢考虑精调的训练过程其实相当于在预训练初始化之上学习领域对应的参数 其中D为参数的维度。那么假设能找到一个维数很低的子空间并通过投影等映射方式将其升维到原始空间 同时能达到和在原始空间中精调类似的效果那么我们就称这个子空间的最大维度为PLM的本征维度。为了量化衡量“达到类似的效果”作者定义其为在具体的任务上达到原始的90%的表现分数。因此这样定义的本征维度是特定于任务的。
由于使用简单的密集投影的计算复杂度和空间复杂度都是O(Dd)的考虑到D的范围在100M-100B之间因此这样子的计算代价是不可接受的。作为替代作者使用了Fastfood[6]变换作为替代 最后作者还考虑到为每层分别添加了超参数并学习不同的映射 在实验部分除了发现PLM的本征维度都很低以外作者还发现规模越大的模型本征维度反而会更小并且在较难的任务上本征维度会更大。 在本征维度假设之上Hu et al.[6]提出了模型参数的低秩近似方法LoRA。即对于所有参数矩阵的改变量都通过ΔWBA进行低秩分解。其中为了保证零初始化矩阵B采用零初始化矩阵A则从正态分布中采样。相比于adapter方法LoRA可以保证训练参数的收敛等价于原始网络adapter等价于MLP同时不会在推理阶段引起额外的延时。此外LoRA能够极大地节省显存和存储占用并提升训练的速度约25%。以GPT-3 175B为例LoRA的精调显存占用可以从1.2TB减小为350GB同时存储占用从350GB减为35MB。
参考文献
[1] Houlsby, Neil, et al. Parameter-efficient transfer learning for NLP. International Conference on Machine Learning. PMLR, 2019.
[2] Lester, Brian, Rami Al-Rfou, and Noah Constant. The Power of Scale for Parameter-Efficient Prompt Tuning. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021.
[3] Li, Xiang Lisa, and Percy Liang. Prefix-Tuning: Optimizing Continuous Prompts for Generation. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021.
[4] Zaken, Elad Ben, Yoav Goldberg, and Shauli Ravfogel. BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2022.
[5] Aghajanyan, Armen, Sonal Gupta, and Luke Zettlemoyer. Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021.
[6] Hu, Edward J., et al. LoRA: Low-Rank Adaptation of Large Language Models. International Conference on Learning Representations. 2022.
[7] Ding, Ning, et al. Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models. arXiv preprint arXiv:2203.06904 (2022).