汽车配件做外贸在哪个网站,西安网站建设APP开发,会展设计方案,网站提现功能开发目录
一、引言
二、LoraConfig配置参数
2.1 概述
2.2 LoraConfig参数说明
2.3 代码示例
三、总结 一、引言 这里的Transformers指的是huggingface开发的大模型库#xff0c;为huggingface上数以万计的预训练大模型提供预测、训练等服务。 #x1f917; Transformers …
目录
一、引言
二、LoraConfig配置参数
2.1 概述
2.2 LoraConfig参数说明
2.3 代码示例
三、总结 一、引言 这里的Transformers指的是huggingface开发的大模型库为huggingface上数以万计的预训练大模型提供预测、训练等服务。 Transformers 提供了数以千计的预训练模型支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的 NLP 技术人人易用。 Transformers 提供了便于快速下载和使用的API让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。同时每个定义的 Python 模块均完全独立方便修改和快速研究实验。 Transformers 支持三个最热门的深度学习库 Jax, PyTorch 以及 TensorFlow — 并与之无缝整合。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍LoraConfig配置参数
二、LoraConfig配置参数
2.1 概述
LoraConfig是Hugging Face transformers库中用于配置LoRALow-Rank Adaptation的类。LoRA是一种用于微调大型语言模型的轻量级方法它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整从而在不显著增加模型大小的情况下提升特定任务的性能。这种方法特别适合于资源有限的环境因为它减少了存储和计算的需求。
2.2 LoraConfig参数说明
LoraConfig允许用户设置以下关键参数来定制LoRA训练。 r: 低秩矩阵的秩即添加的矩阵的第二维度控制了LoRA的参数量。alpha: 权重因子用于在训练后将LoRA适应的权重与原始权重相结合时的缩放。lora_dropout: LoRA层中的dropout率用于正则化。target_modules: 指定模型中的哪些模块层将应用LoRA适应。这允许用户集中资源在对任务最相关的部分进行微调。bias: 是否在偏置项上应用LoRA通常设置为none或all。task_type: 指定任务类型如CAUSAL_LM以确保LoRA适应正确应用到模型的相应部分。 2.3 代码示例
这是一段LoraConfig配置Qwen2的代码指定模型中的q_proj、v_proj等层应用LoRA了解具体有哪些层可以通过print(model)查看。
config LoraConfig(r64,lora_alpha16,target_modules[q_proj, v_proj, v_proj, o_proj, gate_proj, up_proj,down_proj],lora_dropout0.05,biasnone,task_typeCAUSAL_LM,
)model get_peft_model(model, config)
print_trainable_parameters(model)
三、总结
本文简要介绍LoraConfig的配置参数情况具体的机遇peft对大模型进行微调后面单独开一页详细讲解。
如果您还有时间可以看看我的其他文章
《AI—工程篇》
AI智能体研发之路-工程篇一Docker助力AI智能体开发提效
AI智能体研发之路-工程篇二Dify智能体开发平台一键部署
AI智能体研发之路-工程篇三大模型推理服务框架Ollama一键部署
AI智能体研发之路-工程篇四大模型推理服务框架Xinference一键部署
AI智能体研发之路-工程篇五大模型推理服务框架LocalAI一键部署
《AI—模型篇》
AI智能体研发之路-模型篇一大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
AI智能体研发之路-模型篇二DeepSeek-V2-Chat 训练与推理实战
AI智能体研发之路-模型篇三中文大模型开、闭源之争
AI智能体研发之路-模型篇四一文入门pytorch开发
AI智能体研发之路-模型篇五pytorch vs tensorflow框架DNN网络结构源码级对比
AI智能体研发之路-模型篇六【机器学习】基于tensorflow实现你的第一个DNN网络
AI智能体研发之路-模型篇七【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
AI智能体研发之路-模型篇八【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
AI智能体研发之路-模型篇九【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
《AI—Transformers应用》
【AI大模型】Transformers大模型库一Tokenizer
【AI大模型】Transformers大模型库二AutoModelForCausalLM
【AI大模型】Transformers大模型库三特殊标记special tokens
【AI大模型】Transformers大模型库四AutoTokenizer
【AI大模型】Transformers大模型库五AutoModel、Model Head及查看模型结构