网站地图 xml html,冬季去黄山旅游攻略,国内做化妆刷的比较好的网站,wordpress注册头像对于模型中冗余的参数#xff0c;一个常见的方法是通过结构化剪枝方法减少参数容量。例如#xff0c;基于幅度值和基于梯度的剪枝方法。尽管这些方法在传统训练上通用性#xff0c;本文关注的PETL迁移有两个不可避免的问题#xff1a;
显著增加了模型存储负担。由于不同的…对于模型中冗余的参数一个常见的方法是通过结构化剪枝方法减少参数容量。例如基于幅度值和基于梯度的剪枝方法。尽管这些方法在传统训练上通用性本文关注的PETL迁移有两个不可避免的问题
显著增加了模型存储负担。由于不同的下游数据剪枝方法设置的剪枝率不同导致不同数据集的不同网络结构这导致这些不同结构大的存储空间。模型精度的损失。剪枝冗余参数从网络中的预训练参数这不与下游数据集直接相关。可训练参数需要适应剪枝的新结构实验中表明这阻碍了模型精度恢复。
本文方法
这里首先介绍广泛使用的维度约简算法t-SNE和聚类算法标准轮廓系数索引silhouette coefficient index。给定d维度的输入特征集合 X { x 1 , x 2 , … , x n } X\{x_{1},x_{2},\ldots,x_{n}\} X{x1,x2,…,xn}t-SNE计算s维度嵌入集合定义为 $Y{y_{1},y_{2},\ldots,y_{n}$满足 s ≪ d s\ll d s≪d。t-SNE计算 x i x_{i} xi 与 x j x_{j} xj 之间相似度的公式为以下的联合概率 p i j p i ∣ j p j ∣ i 2 n p_{ij}\frac{p_{i|j}p_{j|i}}{2n} pij2npi∣jpj∣i 其中 p i ∣ j exp ( − ∣ ∣ x i − x j ∣ ∣ 2 / 2 σ i 2 ) ∑ k ≠ i exp ( − ∣ ∣ x i − x k ∣ ∣ 2 / 2 σ i 2 ) p_{i|j}\frac{\exp(-||x_{i}-x_{j}||^{2}/2\sigma_{i}^{2})}{\sum_{k\neq i}\exp(-||x_{i}-x_{k}||^{2}/2\sigma_{i}^{2})} pi∣j∑kiexp(−∣∣xi−xk∣∣2/2σi2)exp(−∣∣xi−xj∣∣2/2σi2)
基于上述 X X X 和 Y Y Y 的联合分布 P P P 和 Q Q Qt-SNE通过梯度下降优化 P P P 和 Q Q Q 之间KL散度。
轮廓系数索引
给定聚类结果集合 X { x 1 , x 2 , … , x n } X\{x_{1},x_{2},\ldots,x_{n}\} X{x1,x2,…,xn}对于每一点 x i x_{i} xi定义 a i a_{i} ai 是在这疑惧类剩下点和 x i x_{i} xi 平均距离。 b ( i ) b(i) b(i) 是在最近聚类的所有点到 x i x_{i} xi 平均距离。定义轮廓系数索引为 s ˉ 1 n ∑ i 1 n b ( i ) − a ( i ) max ( a ( i , b ( i ) \bar{s}\frac{1}{n}\sum_{i1}^{n}\frac{b(i)-a(i)}{\max(a(i,b(i)} sˉn1i1∑nmax(a(i,b(i)b(i)−a(i)
基于特征视角的逐层剪枝
先前研究已经显示较低的层捕捉一般特征较高的层关注于特定特征。基于此理解和PETL冻结预训练网络参数的限制本文提出了一个假设当存在下游数据分布和预训练数据分布显著差异时由PETL迁移的较深的层将包含大量的冗余参数。本文目标是动态识别并剪枝这些冗余参数。后续关键评价指标需要满足
维持PETL迁移模型相同存储参数数量不需要额外训练预测冗余参数
不增加存储参数数量
考虑一个PETL迁移的N层ViT模型定义每层预训练参数为 W P i W_{P}^{i} WPi定义每层新引入的参数为 W A i , j W_{A}^{i,j} WAi,j头参数为 W H j W_{H}^{j} WHj由SLS预测的剪枝层索引为 I n d e x j Index_{j} Indexj。对于层级别的剪枝方法在K个下游数据集的存储的参数量 S S S 为 S ∑ j 1 K ∑ i 1 I n d e x j ( W P i W A i , j ) ∑ j 1 K W H j S\sum_{j1}^{K}\sum_{i1}^{Index_{j}}(W_{P}^{i}W_{A}^{i,j})\sum_{j1}^{K}W_{H}^{j} Sj1∑Ki1∑Indexj(WPiWAi,j)j1∑KWHj 显然剪枝层数量不会超过网络层的范围。 S ≤ ∑ j 1 K ∑ i 1 N ( W P i W A i , j ) ∑ j 1 K W H j K ∑ i 1 N W P i ∑ j 1 N ∑ i 1 N W A i , j ∑ j 1 K W H j S\leq \sum_{j1}^{K}\sum_{i1}^{N}(W_{P}^{i}W_{A}^{i,j})\sum_{j1}^{K}W_{H}^{j}K\sum_{i1}^{N}W_{P}^{i}\sum_{j1}^{N}\sum_{i1}^{N}W_{A}^{i,j}\sum_{j1}^{K}W_{H}^{j} S≤j1∑Ki1∑N(WPiWAi,j)j1∑KWHjKi1∑NWPij1∑Ni1∑NWAi,jj1∑KWHj 对于存储的参数每一层的参数 W P i W_{P}^{i} WPi 是可以再次使用的因此满足 S ≤ ∑ i 1 N W P i ∑ j 1 N ∑ i 1 N W A i , j ∑ j 1 K W H j S\leq \sum_{i1}^{N}W_{P}^{i}\sum_{j1}^{N}\sum_{i1}^{N}W_{A}^{i,j}\sum_{j1}^{K}W_{H}^{j} S≤i1∑NWPij1∑Ni1∑NWAi,jj1∑KWHj
基于从每层的中间特征做剪枝决策
本文提出使用约简维度特征的聚类度评估层特征。该方法没有引入额外的监督训练。
给定输入 X X XViT模型将其通过补丁嵌入曾嵌入d维度潜在空间获得 e 0 e_{0} e0。 e 0 e_{0} e0 与CLS令牌连接作为模型输入。ViT模型backbone前向过程可以描述为 [ x i , e i ] L i ( [ x i − 1 , e i − 1 ] ) [x_{i},e_{i}]L_{i}([x_{i-1},e_{i-1}]) [xi,ei]Li([xi−1,ei−1])
本文提出特征评估模块FEM评估从层 L i L_{i} Li 的特征。FEM从层 KaTeX parse error: Expected }, got EOF at end of input: L_{i] 的输出获得CLS令牌 x i x_{i} xi 表示当前特征。之后使用t-SNE算法约简 x i x_{i} xi 为 x i ′ x_{i}^{\prime} xi′。通过结合当前输入的标签获得 p p p 类别的聚类结果。之后获得对应 C C C 的 a ( i ) a(i) a(i) b ( i ) b(i) b(i)最后是当前层的特征评估 S C _ i n d e x i SC\_index_{i} SC_indexi。
对于N层的模型定义 α \alpha α 是控制SLS剪枝度的超参数。在当前数据集的对于剪枝层的阈值 T T T 定义为 T α × S C _ I n d e x N T\alpha\times SC\_Index_{N} Tα×SC_IndexN
在模型剪枝过程中从最高层往下。当第i层特征的评估 S C _ I n d e x i SC\_Index_{i} SC_Indexi 小于T停止遍历并剪枝从i2到N的层。核心思想是当第 i层评估与最终层特征评估差距小于一个特定阈值分类头不再能有效区分当前特征。