想要黑掉一个网站 要怎么做,互动科技 网站建设,做经营网站怎么赚钱吗,农村电商平台简介诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文全名#xff1a;LoRA: Low-Rank Adaptation of Large Language Models
ArXiv网址#xff1a;https://arxiv.org/abs/2106.09685 官方GitHub网站#xff08;包含在RoBERTa、DeBERTa、GPT-2上用Lora微调…诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文全名LoRA: Low-Rank Adaptation of Large Language Models
ArXiv网址https://arxiv.org/abs/2106.09685 官方GitHub网站包含在RoBERTa、DeBERTa、GPT-2上用Lora微调的权重https://github.com/microsoft/LoRA
LoRA应该算是现在最流行的部分微调大模型的算法之一。也是我最常用的算法。 作者来自微软。 文章目录 1. 算法思路2. 之前方法的不足之处3. 实验参考资料 1. 算法思路
如果对每个子任务都进行全量微调代价太大了所以本文提出了LoRALow-Rank Adaptation算法来在子任务上优化大模型冻结模型权重在Transformer每一层加入新参数rank decomposition matrices来进行训练。测试的时候就把这个新参数直接加到原权重里。 LoRA跟全量微调相比减少了训练用时效果没差多少跟adapter相比没有增加推理用时。
以前解决模型微调代价高问题的方法有只微调部分权重和额外学习参数模块。这些方法要么会增加推理用时因为模型加了个adapter更深了1 2要么会减少模型可输入序列长度prefix-tuning调的prefix挤了prompt本来该占的长度3而且微调效果也远逊于全量微调。
4和5指出大模型的参数是过参数化over-parametrized6的实际上一个秩更低的矩阵就够用了本文就假设模型微调过程中矩阵的变化差异 Δ Φ \Delta\Phi ΔΦ也有这样一个低秩矩阵 Θ , ∣ Θ ∣ ≪ ∣ Δ Φ ∣ \Theta, |\Theta|\ll|\Delta\Phi| Θ,∣Θ∣≪∣ΔΦ∣所以只优化这个rank decomposition matrices秩分解矩阵就相当于间接优化了整个稠密的大模型权重。
也就是将大模型权重更新矩阵拆成两个小矩阵的乘积
最终表征向量也就变成了
语言模型的目标函数
LoRA就只优化AB。目标函数 这样很省空间省时间。
有一些不知道是不是trick的细节我就没写了。Section 7部分分析了模型结构我也没写
2. 之前方法的不足之处
adapter系推理慢尤其在多卡运行时 2每个block有两层adapter layers
prefix tuning很难优化更新参数时效果不稳定而且留给下游任务的token不够长
3. 实验
与adapter相比用时具有优势
基模型选择了RoBERTa、DeBERTa、GPT-2然后在GPT-3上进行了压力测。
对比实验结果 超参数分析
参考资料
LORA大模型轻量级微调这篇有一些写得更详细的内容还有更多参考资料以后我可能会重读。当然我还是觉得如果真的想了解论文详情应该去看论文 (2017) Learning multiple visual domains with residual adapters (2020 EMNLP) AdapterDrop: On the Efficiency of Adapters in Transformers AdapterFusion: Non-Destructive Task Composition for Transfer Learning ↩︎ (2019) Parameter-Efficient Transfer Learning for NLP (2020 EMNLP) Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning ↩︎ ↩︎ (2021) Prefix-Tuning: Optimizing Continuous Prompts for Generation (2021 EMNLP) The Power of Scale for Parameter-Efficient Prompt Tuning (2021 ACL) WARP: Word-level Adversarial ReProgramming (2021) GPT Understands, Too ↩︎ (2018) Measuring the Intrinsic Dimension of Objective Landscapes ↩︎ (2020) Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ↩︎ 为了阐述这个问题我专门写了另一篇博文Lora里面说大模型参数是over-parametrized过参数的什么是over-parametrized另附相关概念double descent和bias-variance trade ↩︎