当前位置: 首页 > news >正文

昆明电子商务网站建设广东网站建设效果

昆明电子商务网站建设,广东网站建设效果,怎么做快法务类似网站,360建筑网证书1. 摘要 尽管大语言模型现在已经被广泛的应用于各种任务#xff0c;但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响#xff0c;本文设计了一系列的实验。通过实验表明#xff0c;预训练语言模型中的lower和final layers与中间层分布不一致…1. 摘要 尽管大语言模型现在已经被广泛的应用于各种任务但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响本文设计了一系列的实验。通过实验表明预训练语言模型中的lower和final layers与中间层分布不一致并且中间层有着惊人的一致性。 2. 模型和benchmark 模型BERT-Large和Llama2 llama-7B32layers 每层包括202M参数llava-13B40layersllava-70B80layersBERT-large24layers和340M参数 benchmark for llama2 ARCscience exam questionHellaSwagcommonsenseGSM8KMath Word ProblemsWinoGrandeWinograd Schema ChallengeLAMBADAword predictionmeasures perplexity benchmark for bert GLUE CoLA (Corpus of Linguistic Acceptability): Acceptability judgments drawn from linguistic theory.MRPC (Microsoft Research Paraphrase Corpus): Semantic equivalence for news sentences.QNLI (Stanford Question Answering Dataset): Question answering from paragraphs.RTE (The Recognizing Textual Entailment): Textual entailmentSST2 (The Stanford Sentiment Treebank): Sentiment prediction.STSB (The Semantic Textual Similarity Benchmark): Sentence pair similarity.WNLI (The Winograd Schema Challenge): Sentence referent selection. 3. 实验 3.1 Do layers “speak the same language”? **实验**跳过某层或将前后两层调换顺序实验结果如下图所示 从上图中可以看出对中间的模型层调换前后2层顺序及跳过某层在benchmark上效果波动不大但first和last few layers则相反。因此可以推断出middle layer和first及last few layers有不同的表征空间且中间层间的表征空间比较相似。 为了更进一步验证这个猜想衡量了在benchmark上不同层hidden state的activation值间的cosine similarity。结果如下图所示 从上图中可以看出模型基本有三种表征空间“beginning”“middle”和“ending”。另外“beginning”层和“middle”层的层数似乎随着模型总层数的增加而增加而“ending”层则会固定到单层上。 3.2 Are all the layers necessary? 实验跳过N层将N1层的输出作为T-N层的输入T为模型总层数。 skip 从上图中可以看出当有少量的层被跳过时模型效果并没有降低很多。 3.3 Are middle layers all doing the same thing? 虽然中间层表征空间是一样的那么是否表示这些层是冗余的呢 实验在“middle”中用中心层的参数替换其他层的参数middle repeat 从上图中可以看出随着替换层数的增加模型效果下降的越发明显。所以“middle” layer中不同层有着不同的功能。 3.4 Does the layer order matter? 实验1. 中间层倒过来reverse。2. 将中间层随机打乱。 不管是随机打乱层还是倒过中间层都对模型效果有不少的影响。但随机打乱要比中间层倒装的效果要好。 3.5 Can we run the layers in parallel? 能否将不同层独立运行然后将结果合并呢 parallel 除了在GSM8K数学任务上随着并行层数的增加模型效果有着合理的降低。 3.6 Does the order matter for some tasks more than others? 是的在数学和推理任务上order比较重要。在语义任务上order就还好。 3.7 Does looping help parallelized layers? 从上图可知并行层重复多次能够有效的改善模型效果。 从上图中可知最佳的迭代次数重复次数与并行层的数量成正比。 3.8 Which variants are least harmful? 从图中可知重复单层是效果最差的随机中间层和并行重复策略looped-parallel模型效果损失最小。 为什么skip要比middle repeat策略要差呢 从图中可以发现skip策略跟llama2-7B模型的cosine similarity一样。而middle repeat则发生了偏移。 4. 讨论 有三种不同类型的层“beginning”“middle”和“ending”中间层有某种程度的均匀但是不冗余。模型层的执行顺序相较于语义任务在数学和推理任务中更为重要
http://www.w-s-a.com/news/145766/

相关文章:

  • 网站建设报价兴田德润机械加工网络接单
  • 免费的推广网站安卓app制作平台
  • 长春火车站附近美食建设信用卡银行积分兑换商城网站
  • 网站提交网址如何备份wordpress网页
  • 龙腾盛世网站建设医院管理系统
  • 网站切换图片做背景怎么写外贸营销邮件主题一般怎么写
  • 基于html5的网站开发wordpress主题工具
  • php网站开发的成功经历公司网站现状
  • 软件发布网站源码中国企业公示信息网
  • flash 的网站网站型销售怎么做
  • 营销型网站单页网站的域名和密码
  • 建网站保定seo自动发布外链工具
  • 做公众号关注网站做课件用这15大网站
  • 怎么制作公司自己网站店铺设计软件手机版
  • 深圳网站关键词优化公司哪家好怎么选择锦州网站建设
  • 标准网站优势项目合作网站
  • 无人机东莞网站建设wordpress站群管理破解版
  • 深圳企业官网网站建设教育培训学校
  • 医疗网站建设及优化西安网站建设开发公司
  • 网站建设详细流程ydg wordpress theme
  • 湖北黄石域名注册网站建设编程网站项目做哪个比较好
  • 旺道网站排名优化咸阳建设网站
  • 建设一个类似淘宝的网站律师做推广宣传的网站
  • 东阳网站建设方案网站建设asp
  • 模板网站建设一条龙平面设计师招聘信息
  • 制作一个网站流程企业建设网站的母的
  • 九州建网站网页游戏平台代理
  • 培训课程网站网上下载的网站模板怎么用
  • 重庆山艺网站建设塘厦理工学校
  • 做网站的人叫什么软件玩具网站设计