当前位置: 首页 > news >正文

.net网站开发实训抖音seo运营模式

.net网站开发实训,抖音seo运营模式,东莞网络营销网络推广系统,那个网站可以做视频app制作今天跟大家分享华南理工大学和阿里巴巴联合提出的将ViT模型用于下游任务的高效微调方法HSN#xff0c;该方法在迁移学习、目标检测、实例分割、语义分割等多个下游任务中表现优秀#xff0c;性能接近甚至在某些任务上超越全参数微调。 论文标题#xff1a;Hierarchical Side…今天跟大家分享华南理工大学和阿里巴巴联合提出的将ViT模型用于下游任务的高效微调方法HSN该方法在迁移学习、目标检测、实例分割、语义分割等多个下游任务中表现优秀性能接近甚至在某些任务上超越全参数微调。 论文标题Hierarchical Side Tuning for Vision Transformers机构华南理工大学、阿里巴巴论文地址https://arxiv.org/pdf/2310.05393.pdf代码地址即将开源https://github.com/AFeng-x/HST#hierarchical-side-tuning-for-vision-transformers关键词Vision Transformer、迁移学习、目标检测、实例分割、语义分割 1.动机 近年来大规模的Vision Transformer简称ViT在多个任务中表现优秀很多研究人员尝试利用ViT中的预训练知识提升下游任务的性能。然而快速增长的模型规模使得在开发下游任务时直接微调预训练模型变得不切实际。 Parameter-efficient transfer learning简称PETL方法通过选择预训练模型的参数子集或在主干中引入有限数量的可学习参数同时保持大部分原始参数不变来解决该问题。 尽管PETL方法取得了重大成功但主要是为识别任务而设计的。当将其用于密集预测任务时比如目标检测和分割与完全的微调相比其性能仍有很大的差距这可能是由于密集预测任务与分类任务有本质上的不同。为了解决这一性能差距作者提出了一种更通用的PETL方法Hierarchical Side-Tuning简称HST作者构建了Hierarchical Side Network简称HSN能产生金字塔式的多尺度输出使得整个模型能适应不同的任务。 2.Hierarchical Side-TuningHST 2.1 HST总体结构 HST的总体结构如下图所示 上图中蓝色部分为普通的ViT其权重被冻结绿色部分为Adaptive Feature Bridge简称AFB用于桥接和预处理中间特征粉色部分是Hierarchical Side Network简称HSN由1个Conv Stem和 L L L个Side Block组成。 对于ViT部分输入图像首先通过patch embedding然后进入 L L L个Transformer encoder对于HSN部分输入图像通过Conv Stem从输入图像中引入局部空间上下文信息。HSN由4个stage组成下采样率分别为 { 4 , 8 , 16 , 32 } \{4,8,16,32\} {4,8,16,32}输出4种不同尺度的特征。每个Transformer encoder都有1个对应的Side Block信息流从backbone流向Side Block。 2.2 Meta Token 与其他prompt-based的微调方法不同作者令prompt的数量为1并将其称作Meta Token简称MetaT其结构如下图所示 作者并没有丢弃prompt对应的输出特征而是将其与输出的patch token一起作为Adaptive Feature Bridge的输入。由于MetaT的输出特征分布与patch token的分布有差异这会影响HSN的性能因此要微调Transformer中的Layer Normalization简称LN层以改变特征的均值和方差即改变了特征分布有助于保持同一样本中不同特征之间的相对值。下图展示了MetaT的输出特征与ViT中patch token之间的余弦相似度显然通过微调LN层MetaT的输出与patch token的向量方向能更好地对齐从而有效地利用MetaT的输出特征。 2.3 Adaptive Feature BridgeAFB 由于ViT的输出特征与HSN中的特征形状不同因此引入了Adaptive Feature BridgeAFBAFB包括2个重要部分双分支分离Dual-Branch Separation和权重共享Linear Weight Sharing如下图所示 Dual-Branch Separation MetaT的输出和patch token先经过线性层进行维度变换线性层的输出分为2个分支patch token进行全局平均池化输出1个token将其称作GlobalTGlobalT与MetaT拼接得到 F m g i \mathcal{F}_{m g}^i Fmgi​。通过双线性差值改变patch token的形状使其与HSN中对应stage的特征形状一致。整体流程表示如下 F m g i [ W j F MetaT  i , AvgPooling ⁡ ( W j F patch  i ) ] ; F f g i T ( W j F v i t i ) \mathcal{F}_{m g}^i\left[W_j \mathcal{F}_{\text {MetaT }}^i, \operatorname{AvgPooling}\left(W_j \mathcal{F}_{\text {patch }}^i\right)\right] ; \mathcal{F}_{f g}^i\mathcal{T}\left(W_j \mathcal{F}_{v i t}^i\right) Fmgi​[Wj​FMetaT i​,AvgPooling(Wj​Fpatch i​)];Ffgi​T(Wj​Fviti​) 上式中 i i i表示第 i i i个Vit block W j W_j Wj​表示第 j j j个stage中线性层的权重矩阵。 Linear Weight Sharing 同一个stage中的多个AFB共享线性层权重以减少可学习参数此外这样能在同一个stage中实现特征间的信息交互达到与使用多个线性层相当的效果。 2.4 Side Block Side Block包含1个cross-attention层和1个Feed-Forward Network简称FFN其结构如下图所示。 Side Block对ViT的中间特征和多尺度特征进行建模考虑到这两个输入分支的特点作者通过不同的方法将它们引入到Side Block中。 Meta-Global Injection 将HSN输出的多尺度特征作为Query记作 Q Q Q使用meta-global token作为key记作 K K K和value记作 V V Vcross-attention表示如下 ( ( Q h s n ) ( K m g ) T ) V m g A V m g \left(\left(Q_{h s n}\right)\left(K_{m g}\right)^T\right) V_{m g}A V_{m g} ((Qhsn​)(Kmg​)T)Vmg​AVmg​ 上式中 Q h s n ∈ R L × d Q_{h s n} \in \mathbb{R}^{L \times d} Qhsn​∈RL×d ( K m g ) T ∈ R d × M \left(K_{m g}\right)^T \in \mathbb{R}^{d \times M} (Kmg​)T∈Rd×M V m g ∈ R M × d V_{m g} \in \mathbb{R}^{M \times d} Vmg​∈RM×d L L L表示多尺度特征输入序列的长度 M M M表示meta-global token的长度 d d d表示特征维度。 将Meta-Global Injection的输出记作 F ^ h s n i \hat{F}_{h s n}^i F^hsni​可表示如下 F ^ h s n i F h s n i CrossAttention ⁡ ( F h s n i , F m g i ) \hat{\mathcal{F}}_{h s n}^i\mathcal{F}_{h s n}^i\operatorname{CrossAttention}\left(\mathcal{F}_{h s n}^i, \mathcal{F}_{m g}^i\right) F^hsni​Fhsni​CrossAttention(Fhsni​,Fmgi​) 上式中 i i i表示HST和ViT的第 i i i个block。 Fine-Grained Injection 将Meta-Global Injection的输出 F ^ h s n i \hat{F}_{h s n}^i F^hsni​与 F f g i F_{f g}^i Ffgi​进行元素相加然后使用FFN进行建模表示如下 F h s n i 1 F ^ h s n i F f g i FFN ⁡ ( F ^ h s n i F f g i ) F_{h s n}^{i1}\hat{F}_{h s n}^iF_{f g}^i\operatorname{FFN}\left(\hat{F}_{h s n}^iF_{f g}^i\right) Fhsni1​F^hsni​Ffgi​FFN(F^hsni​Ffgi​) F h s n i 1 F_{h s n}^{i1} Fhsni1​作为下一个Side Block的输入。 3.实验 3.1 实验设置 3.2 实验结果 1图像分类 2目标检测和实例分割 3语义分割 更多消融实验及分析请查看原文。 4.总结 作者提出了一种新的参数高效的迁移学习方法Hierarchical Side-TuningHST可训练的side network利用了backbone的中间特征并生成了用于进行预测的多尺度特性。通过实验表明HST在不同的数据集和任务中表现优异显著地减少了在密集预测任务中PETL与完全微调的性能差距。
http://www.w-s-a.com/news/996731/

相关文章:

  • 代码编辑器做热点什么网站好湛江网站建设哪家好
  • php网站开发概念网站开发岗位职责任职责格
  • asp 网站源码 下载西安自适应网站建设
  • 白领兼职做网站贵阳网站设计哪家好
  • 热水器网站建设 中企动力企业网站开发需要多钱
  • 北京市建设工程信息网交易网站静态网页模板免费下载网站
  • 福田欧曼服务站网站前台设计
  • 网站做系统叫什么软件吗注册域名需要实名认证吗
  • jsp网站开发教学视频ui设计风格
  • 注册网站建设开发怎么自己做导航网站
  • 设计做网站品牌咖啡主题网页界面设计
  • 个人网站制作总体设计宿迁房价2023年最新房价
  • 服装网站建设进度及实施过程马鞍山网站设计制作
  • 郑州网站优化顾问济宁网站制作
  • 网站开发简单吗网站引导页分为三个板块设计风格
  • 湖南做网站 在线磐石网络百度一下百度搜索
  • 现在建网站多少钱推广营销费
  • 联想企业网站建设的思路西安网站建设阳建
  • 网站内容 内链网站建设电话销售工作总结
  • 系统网站开发知名的摄影网站有哪些
  • 网站拍照的幕布扬中网站建设价位
  • 网站ie兼容性差西安小程序开发的公司
  • 上海网站建设培训app网站开发成本
  • 个人网站icp外贸网站开发 河南
  • 遵义建设网站无锡市规划建设局网站
  • 海外留学网站建设方案门户网站的发布特点
  • 网站建设不赚钱net112企业建站系统
  • 网站建设团队管理模板贵州省住房和城乡建设部网站
  • 曲沃网站建设网上学编程的有哪些比较好的网站
  • 厦门网站建设慕枫学做网站需要多久