当前位置: 首页 > news >正文

iis发布网站的教程好的作文网站

iis发布网站的教程,好的作文网站,怀化优化营商环境,网站建设和备案FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 论文地址#xff1a;https://arxiv.org/pdf/2303.14189.pdf 概述 本文提出了一种通用的 CNN 和 Transformer 混合的视觉基础模型 移动设备和 ImageNet 数据集上的精度相同的前提下#xf…FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 论文地址https://arxiv.org/pdf/2303.14189.pdf 概述 本文提出了一种通用的 CNN 和 Transformer 混合的视觉基础模型 移动设备和 ImageNet 数据集上的精度相同的前提下FastViT 比 CMT 快3.5倍比 EfficientNet 快4.9倍比 ConvNeXt 快1.9倍 本文是 MobileOne 原班人马打造可以看做是 MobileOne 的方法在 Transformer 上的一个改进型的应用 作者取名 FastViT是一种 CNNTransformer 混合架构的低延时模型 作者引入了一种新的 token mixer叫做 RepMixer它使用结构重新参数化技术通过删除网络中的 Shortcut 来降低内存访问成本 进一步使用大核卷积使得 FastViT 精度得到提升而且不怎么影响延时 在移动设备和 ImageNet 数据集上的精度相同的前提下FastViT 比 CMT 快3.5倍比 EfficientNet 快4.9倍比 ConvNeXt 快1.9倍 在类似的延迟下FastViT 在 ImageNet 上获得的 Top-1 准确率比 MobileOne 高 4.2%是一种极具竞争力的混合架构模型 背景 本文的目标是做一个卷积Attention 的低延时混合架构 因为这种架构有效地结合了 CNN 和 Transformer 的优势在多个视觉任务上有竞争力 本文的目标是建立一个模型实现 SOTA 的精度-延时 Trade-off 像 CMTLIT等 CNN 和 Transformer 混合架构的模型都遵循 MetaFormer的架构 它由带有 skip-connection 的 token mixer 和带有 skip-connection 的前馈网络 (Feed Forward Network) 组成 由于增加了内存访问成本 (memory access cost)这些跳过连接在延迟方面占了很大的开销 为了解决这个延迟开销本文提出 RepMixer这是一个完全可以重参数化的混合器 它的特点有 是使用结构重参数化来删除 skip-connection在训练期间为主要的层添加一些过参数化的额外的分支以在训练时提升模型的精度在推理时全部消除在网络中使用了大核卷积在前几个阶段替换掉 Self-Attention 具体是在前馈网络 (FFN) 层和 Patch Embedding 层中加入了大核卷积 这些更改对模型的总体延迟影响很小同时提高了性能 对于性能这块作者在 iPhone 12 Pro 设备和 NVIDIA RTX-2080Ti desktop GPU 上进行了详尽的分析 可以看到在两种设备上FastViT 都实现了最佳的精度-延时的权衡 FastViT 模型架构 Stage 的内部架构 FastViT 采用了4个 stage 的架构每个 stage 相对于前一个的分辨率减半通道数加倍。前3个 stage 的内部架构是一样的 第4个 stage采用 Attention 来作为 token mixer可能是为了性能考虑宁愿不采用结构重参数化牺牲延时成本以换取更好的性能 值得注意的是每个 Stage 中的 FFN 使用的并不是传统的 FFN 架构而是带有大核 7×7 卷积的 ConvFFN 架构 Stem 的结构 Stem 是整个模型的起点FastViT 的 Stem 在推理时的结构是 3×3 卷积 3×3 Depth-wise 卷积 1×1 卷积 在训练时分别加上 1×1 分支或者 Identity 分支做结构重参数化 Patch Embedding 的架构 Patch Embedding 是模型在 Stage 之间过渡的部分 FastViT 的 Patch Embedding 在推理时的结构是 7×7 大 Kernel 的 Depth-wise 卷积 1×1 卷积 在训练时分别加上 3×3 分支做结构重参数化 位置编码 位置编码使用条件位置编码它是动态生成的并以输入 token 的局部邻域为条件 这些编码是由 depth-wise 运算符生成的并添加到 Patch Embedding 中 RepMixer 的延时优势 作者对比了 RepMixer 和高效的 Pooling 操作的延时情况 架构使用的是 MetaFormer S12大概有 1.8 GFLOPs 在 iPhone 12 Pro 移动设备上为从 224×224 到 1024×1024 的各种输入分辨率的模型计时 可以看到 RepMixer 明显优于 Pooling尤其是在较高分辨率的时候 在分辨率为 384×384 时使用 RepMixer 可以降低 25.1% 的延迟而在分辨率为 1024×1024 时 使用 RepMixer 可以降低 43.9% 的延迟 FastViT 的大核卷积 RepMixer 的感受野是局部的 我们知道 Self-Attention 操作的感受野是全局的但是 Self-Attention 操作计算量昂贵 因此之前有工作说使用大核卷积可以在计算量得到控制的情况下有效增加感受野的大小 FastViT 在两个位置引入了大核卷积分别是 Patch Embedding 层和 FFN 将 V5 与 V3 进行比较模型大小增加了 11.2%延迟增加了 2.3 倍而 Top-1 精度的增益相对较小只有 0.4% 说明使用大核卷积来替换 Self-Attention 是一种高效节约延时的方式 V2 比 V4 大 20%延时比 V4 高 7.1%同时在 ImageNet 上获得相似的 Top-1 精度 随着感受野的增加大核卷积也有助于提高模型的鲁棒性FastViT 各种模型的超参数配置如下 ImageNet-1K 图像分类实验结果 对于 iPhone 设备延时的测量作者使用 Core ML Tools (v6.0) 导出模型并在带有 iOS 16 的 iPhone12 Pro Max 上运行 并将所有模型的 Batch Size 大小设置为1 对于 GPU延时的测量作者把模型导出为 TensorRT (v8.0.1.6) 格式并在 NVIDIA RTX-2080Ti 上运行 Batch Size 大小为8报告100次运行的中位数 与 SOTA 模型的性能比较 本文的 FastViT 实现了最佳的精度-延时均衡 比如 FastViT-S12 在 iPhone 12 Pro 上比 MobileOne-S4 快 26.3%GPU 上快 26.9% 在 83.9% 的 Top-1 精度下FastViT-MA36 比 iPhone 12 Pro 上优化的 ConvNeXt-B 模型快 1.9倍, GPU上快2.0倍 知识蒸馏实验结果 FastViT 作为学生模型的知识蒸馏实验结果 作者遵循 DeiT 中的实验设置RegNet16GF 作为教师模型使用 Hard Distillation 其中教师的输出设置为 true label一共训练300个 Epochs FastViT 优于最近最先进的模型 EfficientFormer FastViT-SA24 的性能与 EfficientFormer-L7 相似但参数少3.8倍FLOPs 少2.7倍延迟低2.7倍 目标检测和语义分割实验结果 对于语义分割作者在 ADE20k 上验证了模型的性能语义分割模型头使用的是 Semantic FPN 所有的模型都是用预先训练好的对应图像分类模型的权重进行初始化 在 512×512 的设置上估计 FLOPs 和延迟 由于输入图像的分辨率较高在表9和表10中GPU 延迟在测量时使用了大小为2的 Batch Size 作者将 FastViT 与最近的工作进行了比较 FastViT-MA36 的 mIoU 比 PoolFormer-M36 高 5.2%但是 PoolFormer 具有更高的 FLOPs、参数量和延迟 目标检测和实例分割实验实验 MS-COCO 数据集 所有模型都使用 Mask-RCNN 目标检测和实例分割头按照 1x schedule 进行训练 所有的模型都是用预先训练好的对应图像分类模型的权重进行初始化 结果显示出 FastViT 在多种延迟机制下实现了最先进的性能 FastViT-MA36 模型的性能与 CMT-S 相似但在桌面GPU 和移动设备上分别快2.4倍和4.3倍 总结 本文提出了一种通用的 CNN 和 Transformer 混合的视觉基础模型是由 MobileOne 原班人马打造 可以看做是 MobileOne 的方法在 Transformer 上的一个改进型的应用 作者引入了一种新的 token mixer叫做 RepMixer它使用结构重新参数化技术 通过删除网络中的 Shortcut 来降低内存访问成本尤其是在较高分辨率时 作者还提出了进一步的架构更改以提高 ImageNet 分类任务和其他下游任务的性能 在移动设备和 ImageNet 数据集上的精度相同的前提下FastViT 比 CMT 快3.5倍比 EfficientNet 快4.9倍比 ConvNeXt 快1.9倍 在类似的延迟下FastViT 在 ImageNet 上获得的 Top-1 准确率比 MobileOne 高 4.2%是一种极具竞争力的混合架构模型 参考文献 https://arxiv.org/pdf/2303.14189.pdfhttps://arxiv.org/pdf/2107.06263.pdfhttps://arxiv.org/pdf/2105.14217.pdfhttps://arxiv.org/pdf/2105.14217.pdfhttps://mp.weixin.qq.com/s/uqcWy4sx1NQuqOplsGDUlg
http://www.w-s-a.com/news/42505/

相关文章:

  • 长治网站制作的网站做网站要什么知识条件
  • discuz 做门户网站wordpress怎么添加图片不显示图片
  • 东营网站建设方案范文百度应用搜索
  • 网站 常见推广js代码放wordpress哪里
  • 靖江网站开发徐州住房和城乡建设局网站
  • 南宁网站建设公司如何为老板打造网站赚钱的wordpress optimizer
  • 做微商好还是开网站好网站网络推广
  • 网站建设岗位所需技能泊头网站优化
  • 企业网站建设是什么网络营销岗位介绍
  • 网站做cdn怎么弄昆明网站seo报价
  • 拖拽网站如何建立微网站
  • 网站网站做代理微信群卖房卡南宁建站模板大全
  • 网络公司怎么优化网站百度快速排名技术培训教程
  • 建e室内设计网 周婷站长工具seo综合查询源码
  • 塔式服务器主机建网站定制美瞳网站建设
  • 网站是先解析后备案吗永久免费网站模板
  • wordpress站点演示php根据ip 跳转网站
  • 东莞市凤岗建设局网站网站开发有哪些职位
  • 企业网站手机版模板免费下载辣条网站建设书
  • 南昌网站建设维护vc 做网站源码
  • 网站动态logo怎么做织梦移动端网站怎么做
  • 三亚城乡建设局网站app下载安装官方网站
  • 公司被其它人拿来做网站郑州哪家做网站最好
  • 山东省建设厅官方网站抖音代运营业务介绍
  • 网站制作 牛商网wordpress商城 微信支付
  • 平面设计培训网站建文帝网站建设
  • python网站建设佛山乐从网站建设
  • 网站 免费 托管运营app软件大全
  • 爱网站找不到了网站设计制作要交印花税
  • 分销平台是什么意思网站如何从行为数据进行优化