当前位置: 首页 > news >正文

上海网站被查WordPress破解版主题

上海网站被查,WordPress破解版主题,最好网站建设公司排名,详述电子商务网站的建设模型参数融合通常指的是在训练过程中或训练完成后将不同模型的参数以某种方式结合起来#xff0c;以期望得到更好的性能。这种融合可以在不同的层面上进行#xff0c;例如在神经网络的不同层之间#xff0c;或者是在完全不同的模型之间。模型参数融合的目的是结合不同模型的…模型参数融合通常指的是在训练过程中或训练完成后将不同模型的参数以某种方式结合起来以期望得到更好的性能。这种融合可以在不同的层面上进行例如在神经网络的不同层之间或者是在完全不同的模型之间。模型参数融合的目的是结合不同模型的优点减少过拟合的风险并提高模型的泛化能力。在实际应用中这通常需要大量的实验来找到最佳的融合策略。 本篇文章只介绍训练完成后的不同模型的参数融合不涉及训练过程的模型参数融合。 可行性分析 2023 年年初的时候chatglm 刚推出 glm-130B 模型那会儿一个令人印象深刻的论述是大模型的参数空间非常稀疏对于大部分权重可以用 int4 进行量化来减少显存的开销从而能够在多张消费级显卡上进行部署。当时公司的资源有限用 3 张 RTX3090 以 int4 方式部署推理的效果虽然相较 chatgpt 甚远但比起 T5 也好得多经过业务数据微调后即可投入到实际的生产业务。 去年 5 月份LIMALIMALess Is More for Alignment 提出了“浅层表征假说”一个模型的知识和能力几乎完全是在预训练中学习的而对齐则是教它在与用户交互时应该使用哪种格式的子分布。提高输入多样性和输出质量会产生可衡量的积极影响而仅提高数量则可能不会实际上也要训练特定领域的 LLM或者在 SFT 阶段注入知识仍然需要大规模的数据模型是可以在 SFT 阶段学到知识不过这可能不叫做对齐这就有点玩文字游戏的嫌疑了。 此外去年还看到一篇博客 Can LLMs learn from a single example?它针对 SFT 多 epoch 训练时loss 曲线呈现阶梯状做了假设与验证提出“记忆假说可能是真的”现代 LLM 的学习速度非常快当模型的训练速度非常慢时我们可以使用各种各样的数据对它们进行长时间的训练并进行多个 epoch 训练而且我们可以预期我们的模型将逐渐从我们给它的数据中提取出可概括的信息。但是当模型的学习速度如此之快时灾难性遗忘问题可能会突然变得明显得多。例如如果一个模型看到了十个非常常见关系的示例然后又看到了一个不太常见的反例那么它很可能会记住这个反例而不仅仅是稍微降低它对原来十个示例的记忆权重。从这个角度来说LLM 的 SFT 非常容易过拟合模型只是记住了答案或者数据的难度不足以让模型有新的收获因此现在流行各种课程学习以及数据子集挑选方法中会选择 loss 高的样本。博客中的一句原文“预训练的大语言模型在接近最小损失的区域具有极其平滑的损失面而开源社区所做的大量微调工作都是在这一区域”。 综上所述将这三方面的观点结合不同任务的微调或许仅仅只是修改了庞大参数空间的一隅但这些任务数据之间高度的独立同分布它们各自在各自的参数空间内“各司其职、互不干扰”就像九头蛇一样共享同一个身体通过不同任务的微调使其长出一个新的头浅层表征趋向于特定领域。 模型参数融合的优缺点 无需训练只需要将现有的基于相同基底的模型进行融合即可例如把基于 mistral-7b 微调的 mistral-7b-math 和 mistral-7b-instruct-v0.1 进行融合结合指令遵循能力和数学能力。针对单独一个领域训练“偏科”的模型要比训练通用模型要容易得多不需要考虑数据集内部各类型数据的配比情况也不需要考虑数据顺序和采样训练的过程也容易得多甚至过拟合也未尝不可。“查漏补缺”哪里不行补哪里。 模型参数融合的缺点是不一定有用滑稽.jpg。 DARE 阿里提出了一种名为 DARE 的方法用来将具备不同能力的多个模型融合成拥有全部能力的单个模型。 论文地址https://arxiv.org/abs/2311.03099GitHub 仓库https://github.com/yule-BUAA/MergeLM/tree/main相关文章https://zhuanlan.zhihu.com/p/668152236 作者发现基于编码器或解码器的语言模型可以通过吸收同源模型的参数来获得新的能力而无需重新训练。通常LMs 的新能力可以通过 SFT 实现这反映在微调后模型参数与预训练参数即 delta 参数之间的差距上。作者提出 DAREDrop And REscale方法将大部分的 delta 参数设置为 0这并不会影响 SFT LM 的能力并且越大的模型的可以 drop 更多的参数。基于这一观察结果使用 DARE 进一步稀疏多个 SFT 同源模型的 delta 参数然后通过参数平均将它们合并为一个模型。 mergekit 现在用的比较多的是 mergekit 这个工具。mergekit 是一个用于合并预训练语言模型的工具包支持多种合并算法。 GitHub 仓库https://github.com/cg123/mergekit 它还能将多个模型融合成 MoE例如 https://huggingface.co/mlabonne/Beyonder-4x7B-v2。这种 MoE 通常被称为 Franken MoE即选择几个在特定任务上表现优异的微调模型将它们组合成一个 MoE 模型。通过一定的训练可以让路由器学会将不同类型的 token 发送给对应的专家。 配置文件示例base_model: mlabonne/Marcoro14-7B-slerp experts:- source_model: openchat/openchat-3.5-1210positive_prompts:- chat- assistant- tell me- explain- source_model: beowolx/CodeNinja-1.0-OpenChat-7Bpositive_prompts:- code- python- javascript- programming- algorithm- source_model: maywell/PiVoT-0.1-Starling-LM-RPpositive_prompts:- storywriting- write- scene- story- character- source_model: WizardLM/WizardMath-7B-V1.1positive_prompts:- reason- math- mathematics- solve- count融合效果 融合的效果使用阿里提出的 DARE 方法见下图去年 11 月份的时候尝试调研一些“奇技”看看能否提升闲聊模型的能力由于受到灾难性遗忘的困扰于是考虑尝试用模型参数融合的方式可以看到融合后的 mistral-7b-dare-merge-v1 尽可能综合 mistral-7b-instruct-v0.1 和 mistral-7b-math 的长处。 后续尝试将自研模型与一些专长的开源模型进行融合最后是超越了 GPT-3.5-Turbo-0314评测是用 fastchat 的代码工具是自己搭建的一套可视化网页版。由于涉及到公司的一些机密加上现在离职了悲故而无法放出具体的截图但模型参数融合的确会有效果值得尝试。 最近有一篇名为《How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study》的论文研究人员使用现有的 10 种训练后量化和 LoRA 微调方法评估了 Llama3 在 1-8 bit 和各种评估数据集上的结果。他们发现Llama3 在低比特量化下遭受了不可忽视的退化特别是在超低位宽上。 有一个评论非常有意思 果然没有免费午餐llama3-8b 模型用了 15t tokens模型训练充分冗余权重应该少很多再执行量化难度大点。模型越大越容易量化最朴素道理就是冗余权重过多。gptq 本质就是把其他权重量化损失补偿到另外没量化权重上相当于一次“平权”。虽然深度学习复杂度是人类无法理解的但是依旧要服从信息熵规律。 推测模型训练得越充分同模型量化一样模型参数融合起到的作用也越低甚至可能效果反而下降。 先前做过的一次实验也有同样的结论如上图所示。当然具体是否如此还需要更加细致的验证。由于现在手上没卡也难以得出确切的结论如果有读者感兴趣的话可以在评论里说明一二不胜感激
http://www.w-s-a.com/news/534942/

相关文章:

  • 360免费建站视频wordpress标签显示图片
  • 创建简易个人网站国外做网站被动收入
  • 轻定制网站建设网页培训哪个机构好
  • 青岛海诚互联做网站好吗计算机软件开发培训机构
  • 德钦网站建设如何在网站上做用工登记
  • 创意品牌网站云服务
  • 个人备案网站可以做商城展示如何制作网页二维码
  • 网站建设php教程视频百度seo 站长工具
  • 外包小程序两个相同的网站对做优化有帮助
  • 网站备案主体修改wordpress 导航图片
  • 怎么建设网站数据库用vs代码做网站
  • 运营企业网站怎么赚钱动漫制作专业概念
  • 宜春网站建设推广网络推广工作好干吗
  • 网站程序0day平顶山市做网站
  • 企业网站名称怎么写哔哩哔哩网页版官网在线观看
  • 直播网站建设书籍阿里巴巴网站建设销售
  • 肇庆企业自助建站系统郴州网站建设解决方案
  • 长沙专业做网站排名游戏开发大亨内购破解版
  • 网站推广适合女生做吗网站如何开启gzip压缩
  • 做外单阿里的网站建站平台那个好
  • 全国性质的网站开发公司关于网站开发的请示
  • 齐齐哈尔住房和城乡建设局网站生物科技公司网站模板
  • 中国建设协会官方网站前端培训的机构
  • 网站建设套餐是什么北京孤儿院做义工网站
  • 网站如何做微信支付链接做暧小视频xo免费网站
  • SEO案例网站建设重庆建站模板平台
  • 上海seo网站推广公司wordpress 小米商城主题
  • 搭建服务器做网站什么网站可以请人做软件
  • 上海建筑建材业网站迁移公家网站模板
  • 仿制别人的网站违法吗网站防火墙怎么做