广东高端网站建设报价,网页代理网站,南京网站建设公司排名,高校网站推广方案微调方法
Freeze方法P-tuning方法 prefix-tuningPrompt TuningP-tuning v1P-tuning v2Lora方法 重要相关参数LoRA 的优势Qlora方法 相关参数微调经验 模型选择模型大小选择数据处理微调方案英文模型需要做词表扩充吗#xff1f;如何避免灾难遗忘大模型的幻觉问题微调后的输出…微调方法
Freeze方法P-tuning方法 prefix-tuningPrompt TuningP-tuning v1P-tuning v2Lora方法 重要相关参数LoRA 的优势Qlora方法 相关参数微调经验 模型选择模型大小选择数据处理微调方案英文模型需要做词表扩充吗如何避免灾难遗忘大模型的幻觉问题微调后的输出有重复问题的原因和解决方法
参考https://blog.csdn.net/dzysunshine/article/details/131590701 *P-tuning 微调方法是一种基于随机梯度下降SGD的方法它通过动态地调整学习率使其随着时间的推移逐渐降低从而使得模型能够更好地收敛 P-Tuning v2的**原理是通过对已训练好的大型语言模型进行参数剪枝得到一个更加小巧、效率更高的轻量级模型**。具体地P-Tuning v2首先使用一种自适应的剪枝策略对大型语言模型中的参数进行裁剪去除其中不必要的冗余参数。然后对于被剪枝的参数P-Tuning v2使用了一种特殊的压缩方法能够更加有效地压缩参数大小并显著减少模型微调的总参数量。https://zhuanlan.zhihu.com/p/629327372*
以下是三种微调技术的简要介绍和原理说明
1. **LoRA (Low-Rank Adaptation)**: - **原理**LoRA 是基于矩阵分解的思想将模型的参数分解为两个低秩矩阵的乘积。具体来说它将模型的权重 \( W \) 表示为一个低秩矩阵 \( L B*A\) 和一个剩余矩阵 \( W \) 的乘积即 \( W B*A W \)。其中\( L \) 是一个可训练的低秩矩阵而 \( R \) 是原始的预训练权重矩阵。通过这种方式LoRA 能够以较少的参数改变原始模型的权重从而实现对模型的微调。 2. LoRA执行步骤是什么LoRA的实现流程概况如下 - 在原始预训练语言模型(PLM)旁增加一个旁路做一个先降维再升维的操作以此来模拟所谓的内在秩 - 训练的时候固定PLM的参数不变只训练降维矩阵A和升维矩阵B即优化器只优化右路的参数; - 模型的输入、输出维度不变左右两边共用模型的输入输出时将 PLM 与 A-B的输出叠加; - 用随机高斯分布初始化A用全零矩阵初始化B。矩阵B的全零初始化使得在训练最开始的一段时间右路的结果会接近于0这样模块的输出就基本上来自于左路也就是大模型原有参数的计算结果这使得模型优化的初始点就和原始的大模型保持一致。 - 该方法通过低秩分解来模拟参数的改变量从而以极小的参数量来实现大模型的间接训练。
2. **P-tuning v2**: - **原理**P-tuning v2 是一种基于prompt的微调方法它通过在模型的输入中添加一个可训练的prompt向量来调整模型的行为。在这种方法中模型的权重在微调过程中保持不变而是通过改变输入的prompt来适应新的任务。Prompt 通常是一个学习到的向量它可以被看作是一个任务特定的偏置项它引导模型朝着特定任务的方向进行预测。 - 在使用P-tuning v2或类似的基于prompt的微调方法时通常会根据问题的类型或内容为每个不同的问题设计不同的prompt向量。Prompt在这里作为一个条件或引导帮助模型更好地理解和适应特定的任务。
3. **QLoRA**: - **原理**QLoRA 是 LoRA 的一个变种它结合了量化和低秩适应的概念。在QLoRA 中模型的权重不仅通过低秩矩阵进行调整而且还通过量化技术进一步减少参数的数量。**量化是一种减少模型精度要求的技术它将权重的值从浮点数转换为更低位的表示从而减少模型的存储和计算需求**。通过结合低秩适应和量化QLoRA 能够在保持模型性能的同时显著降低模型的参数量和计算成本。QLoRA的量化过程可能仅针对这些新增的、可训练的低秩矩阵参数而不是原始的预训练模型参数。 LoRA和QLoRA适合于需要在资源受限的设备上部署大型模型的情况而P-tuning v2和Prompt Tuning则适合于快速适应新任务而不需要显著增加计算负担的情况。
这三种技术都是为了在保持模型性能的同时减少微调过程中的参数更新数量从而减少计算资源的消耗。LoRA 通过低秩矩阵调整权重P-tuning v2 通过改变输入prompt来引导模型而QLoRA 结合了这两种技术并通过量化进一步压缩模型。每种技术都有其特定的应用场景研究者可以根据任务的具体需求和资源限制来选择最合适的微调策略。
https://cloud.tencent.com/developer/article/2302701 人工智能大语言模型SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法原创