当前位置: 首页 > news >正文

想要黑掉一个网站 要怎么做互动科技 网站建设

想要黑掉一个网站 要怎么做,互动科技 网站建设,做经营网站怎么赚钱吗,农村电商平台简介诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文全名#xff1a;LoRA: Low-Rank Adaptation of Large Language Models ArXiv网址#xff1a;https://arxiv.org/abs/2106.09685 官方GitHub网站#xff08;包含在RoBERTa、DeBERTa、GPT-2上用Lora微调…诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文全名LoRA: Low-Rank Adaptation of Large Language Models ArXiv网址https://arxiv.org/abs/2106.09685 官方GitHub网站包含在RoBERTa、DeBERTa、GPT-2上用Lora微调的权重https://github.com/microsoft/LoRA LoRA应该算是现在最流行的部分微调大模型的算法之一。也是我最常用的算法。 作者来自微软。 文章目录 1. 算法思路2. 之前方法的不足之处3. 实验参考资料 1. 算法思路 如果对每个子任务都进行全量微调代价太大了所以本文提出了LoRALow-Rank Adaptation算法来在子任务上优化大模型冻结模型权重在Transformer每一层加入新参数rank decomposition matrices来进行训练。测试的时候就把这个新参数直接加到原权重里。 LoRA跟全量微调相比减少了训练用时效果没差多少跟adapter相比没有增加推理用时。 以前解决模型微调代价高问题的方法有只微调部分权重和额外学习参数模块。这些方法要么会增加推理用时因为模型加了个adapter更深了1 2要么会减少模型可输入序列长度prefix-tuning调的prefix挤了prompt本来该占的长度3而且微调效果也远逊于全量微调。 4和5指出大模型的参数是过参数化over-parametrized6的实际上一个秩更低的矩阵就够用了本文就假设模型微调过程中矩阵的变化差异 Δ Φ \Delta\Phi ΔΦ也有这样一个低秩矩阵 Θ , ∣ Θ ∣ ≪ ∣ Δ Φ ∣ \Theta, |\Theta|\ll|\Delta\Phi| Θ,∣Θ∣≪∣ΔΦ∣所以只优化这个rank decomposition matrices秩分解矩阵就相当于间接优化了整个稠密的大模型权重。 也就是将大模型权重更新矩阵拆成两个小矩阵的乘积 最终表征向量也就变成了 语言模型的目标函数 LoRA就只优化AB。目标函数 这样很省空间省时间。 有一些不知道是不是trick的细节我就没写了。Section 7部分分析了模型结构我也没写 2. 之前方法的不足之处 adapter系推理慢尤其在多卡运行时 2每个block有两层adapter layers prefix tuning很难优化更新参数时效果不稳定而且留给下游任务的token不够长 3. 实验 与adapter相比用时具有优势 基模型选择了RoBERTa、DeBERTa、GPT-2然后在GPT-3上进行了压力测。 对比实验结果 超参数分析 参考资料 LORA大模型轻量级微调这篇有一些写得更详细的内容还有更多参考资料以后我可能会重读。当然我还是觉得如果真的想了解论文详情应该去看论文 (2017) Learning multiple visual domains with residual adapters (2020 EMNLP) AdapterDrop: On the Efficiency of Adapters in Transformers AdapterFusion: Non-Destructive Task Composition for Transfer Learning ↩︎ (2019) Parameter-Efficient Transfer Learning for NLP (2020 EMNLP) Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning ↩︎ ↩︎ (2021) Prefix-Tuning: Optimizing Continuous Prompts for Generation (2021 EMNLP) The Power of Scale for Parameter-Efficient Prompt Tuning (2021 ACL) WARP: Word-level Adversarial ReProgramming (2021) GPT Understands, Too ↩︎ (2018) Measuring the Intrinsic Dimension of Objective Landscapes ↩︎ (2020) Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ↩︎ 为了阐述这个问题我专门写了另一篇博文Lora里面说大模型参数是over-parametrized过参数的什么是over-parametrized另附相关概念double descent和bias-variance trade ↩︎
http://www.w-s-a.com/news/980426/

相关文章:

  • 做网站用的书公司做网站 需要解决哪些问题
  • 电器网站建设策划书深圳动画制作
  • cpa网站建设wordpress支付宝微信收费吗
  • 权威网站排名桂林生活网论坛
  • 网站设计息济南网站建设济南
  • 安蓉建设总公司网站网站怎么做才能被百度收录
  • 电子商务网站业务流程分析做效果图的外包网站
  • wordpress仿站视频教程wordpress用什么php版本好
  • 郑州做网站九零后网络沧州做网站的专业公司
  • 小游戏网站建设可以自己做图片的软件
  • 湖南地税局官网站水利建设基金app仿制
  • 苏州网站设计kgwl建设网站需要用到哪些技术人员
  • 万户网络做网站如何亚马逊网站建设
  • 门户网站制作费用暴雪公司最新消息
  • 深圳专业建网站公司济南公司做网站的价格
  • 怎么运行自己做的网站网上申请平台怎么申请
  • 旅游公司网站 优帮云新闻近期大事件
  • 电商网站后台报价营销软文小短文
  • 网站建设项目售后服务承诺公司名称邮箱大全
  • 湖南网站建设哪里好做ppt的网站叫什么名字
  • 容城县建设银行网站电子商务网站建设子项目
  • 网站管理助手3.0做淘宝网站用什么软件做
  • 贵阳做网站的公司wordpress趣味插件
  • 自己设置免费网站设计平台南京哪里有做公司网站的
  • 建设公司内网网站的意义自助建站网站的宣传手册
  • 手机建设中网站建立个人网站服务器
  • 网站开发工程师岗位概要网站怎么制作教程
  • 城乡建设主管部门官方网站公司简介模板ppt范文
  • 网站认证必须做么cc0图片素材网站
  • net域名 著名网站国外设计案例网站