当前位置：首页 > news >正文

昆明电子商务网站建设广东网站建设效果

news 2025/12/30 7:35:27

昆明电子商务网站建设,广东网站建设效果,怎么做快法务类似网站,360建筑网证书1. 摘要尽管大语言模型现在已经被广泛的应用于各种任务#xff0c;但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响#xff0c;本文设计了一系列的实验。通过实验表明#xff0c;预训练语言模型中的lower和final layers与中间层分布不一致…1. 摘要尽管大语言模型现在已经被广泛的应用于各种任务但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响本文设计了一系列的实验。通过实验表明预训练语言模型中的lower和final layers与中间层分布不一致并且中间层有着惊人的一致性。 2. 模型和benchmark 模型BERT-Large和Llama2 llama-7B32layers 每层包括202M参数llava-13B40layersllava-70B80layersBERT-large24layers和340M参数 benchmark for llama2 ARCscience exam questionHellaSwagcommonsenseGSM8KMath Word ProblemsWinoGrandeWinograd Schema ChallengeLAMBADAword predictionmeasures perplexity benchmark for bert GLUE CoLA (Corpus of Linguistic Acceptability): Acceptability judgments drawn from linguistic theory.MRPC (Microsoft Research Paraphrase Corpus): Semantic equivalence for news sentences.QNLI (Stanford Question Answering Dataset): Question answering from paragraphs.RTE (The Recognizing Textual Entailment): Textual entailmentSST2 (The Stanford Sentiment Treebank): Sentiment prediction.STSB (The Semantic Textual Similarity Benchmark): Sentence pair similarity.WNLI (The Winograd Schema Challenge): Sentence referent selection. 3. 实验 3.1 Do layers “speak the same language”? **实验**跳过某层或将前后两层调换顺序实验结果如下图所示从上图中可以看出对中间的模型层调换前后2层顺序及跳过某层在benchmark上效果波动不大但first和last few layers则相反。因此可以推断出middle layer和first及last few layers有不同的表征空间且中间层间的表征空间比较相似。为了更进一步验证这个猜想衡量了在benchmark上不同层hidden state的activation值间的cosine similarity。结果如下图所示从上图中可以看出模型基本有三种表征空间“beginning”“middle”和“ending”。另外“beginning”层和“middle”层的层数似乎随着模型总层数的增加而增加而“ending”层则会固定到单层上。 3.2 Are all the layers necessary? 实验跳过N层将N1层的输出作为T-N层的输入T为模型总层数。 skip 从上图中可以看出当有少量的层被跳过时模型效果并没有降低很多。 3.3 Are middle layers all doing the same thing? 虽然中间层表征空间是一样的那么是否表示这些层是冗余的呢实验在“middle”中用中心层的参数替换其他层的参数middle repeat 从上图中可以看出随着替换层数的增加模型效果下降的越发明显。所以“middle” layer中不同层有着不同的功能。 3.4 Does the layer order matter? 实验1. 中间层倒过来reverse。2. 将中间层随机打乱。不管是随机打乱层还是倒过中间层都对模型效果有不少的影响。但随机打乱要比中间层倒装的效果要好。 3.5 Can we run the layers in parallel? 能否将不同层独立运行然后将结果合并呢 parallel 除了在GSM8K数学任务上随着并行层数的增加模型效果有着合理的降低。 3.6 Does the order matter for some tasks more than others? 是的在数学和推理任务上order比较重要。在语义任务上order就还好。 3.7 Does looping help parallelized layers? 从上图可知并行层重复多次能够有效的改善模型效果。从上图中可知最佳的迭代次数重复次数与并行层的数量成正比。 3.8 Which variants are least harmful? 从图中可知重复单层是效果最差的随机中间层和并行重复策略looped-parallel模型效果损失最小。为什么skip要比middle repeat策略要差呢从图中可以发现skip策略跟llama2-7B模型的cosine similarity一样。而middle repeat则发生了偏移。 4. 讨论有三种不同类型的层“beginning”“middle”和“ending”中间层有某种程度的均匀但是不冗余。模型层的执行顺序相较于语义任务在数学和推理任务中更为重要

查看全文

http://www.w-s-a.com/news/145766/