当前位置: 首页 > news >正文

网站群建设系统郑州哪个公司专业做网站

网站群建设系统,郑州哪个公司专业做网站,怎么做直播视频教学视频网站,公司名后缀的邮箱身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点#xff0c;除了典型的身体骨骼关键点#xff0c;还可以包括手、脚、脸部等关键点#xff0c;是计算机视觉领域的基本任务之一。目前#xff0c;视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来…身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点除了典型的身体骨骼关键点还可以包括手、脚、脸部等关键点是计算机视觉领域的基本任务之一。目前视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来很好的性能。在身体姿态估计任务上使用CNN提取的特征结合定制化的transformer模块进行特征增强视觉transformer取得了很好的效果。然而简单的视觉transformer本身在姿态估计任务上是否能有很好的表现呢 京东探索研究院联合悉尼大学在这方面做出了探索提出了基于简单视觉transformer的姿态估计模型ViTPose和改进版本ViTPose。ViTPose系列模型在MS COCO多个人体姿态估计数据集上达到了新的SOTA和帕累托前沿。其中ViTPose已收录于Neurips 2022。ViTPose进一步拓展到多种不同类型的身体姿态估计任务涵盖动物、人体以及典型的身体骨骼、手、脚、脸部等关键点类型在不增加推理阶段模型复杂度和计算复杂度的情况下实现了多个数据集上的最佳性能。 一、研究背景 ViTPose和ViTPose的性能和速度对比图圆圈大小代表了模型大小 近年来视觉transformer在多个视觉领域展现出了极佳的性能。在姿态估计领域也涌现出许多基于transformer的方案并取得了很好的效果。如TokenPose等工作使用CNN进行特征提取并使用transformer作为后处理模块来建模多个关键点之间的关系。尽管他们展现了很好的效果但是仍然依赖CNN提取特征很难充分挖掘transformer在姿态估计领域的潜力。 为了减少CNN的影响HRFormer等工作仅使用transformer来进行特征提取和建模人体关键点。为了提升模型性能模型采用了一些特殊的设计如多尺度建模、多层级结构等方式。这些结构在CNN模型设计和transformer模型设计中都表现出很好的结果。然而我们是否需要为姿态估计任务定制化的设计Transformer网络结构呢为此京东探索研究院联合悉尼大学提出了基于简单视觉transformer的姿态估计基线ViTPose充分挖掘transformer在姿态估计领域的潜力。基于常见的无监督预训练技术并结合非常简单的解码器ViTPose展示了视觉transformer在姿态估计方面的简单性可扩展性灵活性和可迁移性并在人体动物全身关键点检测等方面达到SOTA性能。 二、ViTPose方法 2.1 ViTPose结构简介 图1 ViTPose结构 为了尽可能避免复杂的设计ViTPose采用了最简单的方式来应用简单的视觉transformer。具体来说ViTPose使用了简单的视觉transformer作为编码器对输入图像进行特征提取。提取得到的特征会作为解码器的输入来得到最终的关键点预测。带有transposed卷积上采样和预测层的标准解码器c和直接使用双线性插值的简单解码器d被用于评估简单视觉transformer的简单性用于Bottom-up预测的解码器e也被采用来衡量ViTPose对于不同关键点检测范式的灵活性。 此外得益于采用了最简单的编码器-解码器设计ViTPose可以很容易的兼容更大规模的简单视觉transformer模型并得到性能提升展示出良好的扩展性此外通过使用不同的预训练方式和不同大小模型的迁移ViTPose展现出优秀的灵活性和可迁移性。尽管没有复杂的模型设计ViTPose在人体动物全身关键点估计等多个设置下达到或超过了SOTA的模型充分展示了简单视觉transformer在姿态估计领域的潜力。 2.2 简单性和扩展性 表1 使用不同decoder的ViTPose在MS COCO的性能对比 为了验证ViTPose的简单性和可扩展性研究者使用了不同的解码器和不同尺寸的编码器结果如表1所示。相比于使用经典的反卷积解码器使用简单双线性解码器的CNN模型出现了极大的性能下降如ResNet-50和ResNet-152有接近20平均准确度的下降。然而视觉transformer模型则表现出了很强的竞争力使用简单的解码器和经典解码器的性能差距不到0.3平均准确度充分说明由于视觉transformer的强表征能力它可以学习到线性可分性极强的特征表示从而仅需要简单的线性解码器即可以达到很好的效果。此外使用更大规模的编码器ViTPose的性能持续上升展示了ViTPose良好的扩展性。 2.3 ViTPose的数据灵活性 表2 使用不同预训练数据的ViTPose在MS COCO的性能对比 在过往的实验中使用ImageNet对编码器进行预训练已经成为了一种默认设置。然而对于姿态估计任务来说这引入了额外的数据需求。为了探索使用ImageNet数据进行预训练是否是不可避免的ViTPose探索了能否只使用姿态估计数据 MS COCO和AI Challenger数据进行预训练。结果如表2所示无论是否使用人体的位置人体实例的检测框标注进行裁剪操作只使用姿态估计的数据进行预训练的ViTPose在使用更少的数据量的情况下达到了和使用ImageNet数据进行预训练的ViTPose相当的效果。 2.4 ViTPose的结构灵活性 表3 使用不同注意力方式的ViTPose性能 由于使用全注意力方式的计算复杂度在使用大尺寸特征图进行训练时ViTPose模型的显存消耗会大幅度增长。为此ViTPose也探索了能否在微调阶段使用不同的注意力方式进行计算。如表3所示使用窗口注意力机制的ViTPose在占用更少显存消耗的情况下可以达到和使用全注意力机制的ViTPose相当的效果。 2.5 ViTPose的训练灵活性 表4 使用不同模块进行训练的ViTPose性能 为了充分探索ViTPose中各个模块对于姿态估计任务的贡献ViTPose进一步探索了仅使用FFN模块或者MHSA模块进行训练而保持其他模块不动的训练方式。结果如表4所示。仅调整FFN模块可以达到和全部可训练相当的效果而只训练MHSA模块则会带来较大的性能下降说明FFN模块负责更多特定任务相关的建模在下游任务迁移学习中发挥更大作用。 2.6 ViTPose使用MoE机制扩展多数据集 图2 ViTPose中的FFN-MoE结构 表5 ViTPose性能比较 然而不同的姿态估计数据集有不同的分布简单通过单一模型来建模不同的姿态估计数据集会因为数据集之间的冲突造成各个数据集上的性能下降。例如使用动物数据集和人体数据集进行联合训练会影响人体姿态估计性能如表5中I-FFN所示。为解决这一问题ViTPose模型探索了使用MoE机制来解决数据集冲突的问题如图2所示经过注意力机制处理后的特征会分块输入FFN模块中进行处理。经过自己数据集独有的部分和各个数据集共享的部分处理后的FFN模块会拼接起来输入到之后的模块中。如表5所示这一机制超过了多任务学习的基线方法MT Baseline并与使用独立和共享FFN模块IS-FFN取得了相当的效果但节省了更多的参数量。 三、实验结果 3.1 客观结果 表6 在MS COCO数据集上不同模型采用Top-down检测范式的性能 表7 在MS COCO数据集上不同模型采用Bottom-up检测范式的性能 如表6和表7所示ViTPose在top-down和bottom-up两种检测方式下达到了和之前模型相当或者更好的效果。使用更多数据集联合训练的ViTPose系列模型达到了更好的速度和性能的平衡如ViTPose±S模型在22M的参数量下达到了1439fps的速度和75.8 AP的准确度。这展示了使用简单视觉transformer在姿态估计任务上的潜力和可能性。 3.2 主观结果 图3 MS COCO主观结果展示 图4 AI Challenger主观结果展示 图5 OCHuman主观结果展示 图6 MPII主观结果展示 图7 WholeBody主观结果展示 图8 动物主观结果展示 如图3-8所示ViTPose在多个姿态估计数据集和多种姿态估计任务上均可以得到优异的结果较好的应对遮挡、截断等多种富有挑战性的场景。这充分展现了简单的视觉transformer作为姿态估计基础模型的潜力。 四、结论 本文提出了ViTPose通过使用简单的视觉transformer进行特征提取和简单的解码器的方式在姿态估计任务上展现了简单视觉transformer的简单性可扩展性灵活性和可迁移性。通过使用MoE的机制解决数据集之间的冲突ViTPose系列模型在多个姿态估计数据集上刷新了之前方法的最好结果达到了新的SOTA和帕累托前沿。我们希望这个工作可以启发更多基于简单视觉transformer的工作来探索简单视觉transformer在更多视觉任务上的可能性并建立统一多个姿态估计任务的视觉基础模型。 【文章】ViTPosehttps://arxiv.org/abs/2204.12484或https://openreview.net/pdf?id6H2pBoPtm0s ViTPosehttps://arxiv.org/abs/2212.04246 【代码】https://github.com/ViTAE-Transformer/ViTPose 参考文献 [1] Yufei Xu, Jing Zhang, Qiming Zhang, and Dacheng Tao. “ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation.” Neurips 2022. [2] Yufei Xu, Jing Zhang, Qiming Zhang, and Dacheng Tao. “ViTPose: Vision Transformer Foundation Model for Generic Body Pose Estimation.” arXiv preprint arXiv:2212.04246 (2022). [3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. “Deep residual learning for image recognition.” CVPR 2016. [4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. “Imagenet: A large-scale hierarchical image database.” CVPR 2009. [5] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C. Lawrence Zitnick. “Microsoft coco: Common objects in context.” ECCV 2014. [6] Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, and Jingdong Wang. “Hrformer: High-resolution vision transformer for dense predict.” Neurips 2021. [7] Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang, Shu-Tao Xia, and Erjin Zhou. “Tokenpose: Learning keypoint tokens for human pose estimation.” ICCV 2021.
http://www.w-s-a.com/news/113953/

相关文章:

  • 网站后台策划书破解版手游app平台
  • 宿迁网站建设介绍公司wordpress 文章 分类 页面
  • 建设通同类网站网站设计公司种类
  • 台州专业做网站网站可以个人做吗
  • 个人logo在线生成免费乐陵德州seo公司
  • 网站回答问题app怎么做专业定制网红柴火灶
  • 网站做的最好的公司行业网址大全
  • 内网怎么做网站服务器seo统计
  • 丽水市企业网站建设 微信营销 影视拍摄计算机专业吃香吗
  • 龙岗做网站公司哪家好找到做网站的公司
  • 网站图片alt属性wordpress 自定义栏目 调用
  • 怎样建网站最快广州网站建设工程
  • iis7 网站404错误信息12306网站很难做吗
  • 网站建设600元包公司设计图片大全
  • 网站建设费用怎么做分录做校园网站代码
  • 网站改版做重定向福州网站建设思企
  • 网站建设全流程企业形象网站开发业务范畴
  • wordpress无法查看站点西安优秀高端网站建设服务商
  • 固始网站制作熟悉免费的网络营销方式
  • 做网站到a5卖站赚钱搜索引擎优化代理
  • 沈阳网站建设包括win10优化
  • 做百度手机网站点击软网站seo优化徐州百度网络
  • 徐州专业网站制作标志设计作业
  • 自己可以做网站空间吗海天建设集团有限公司网站
  • 教学督导网站建设报告aspcms网站图片不显示
  • 网站开发公司成本是什么门户网站宣传方案
  • 上海 企业网站建设网站怎么开通微信支付
  • 饮料网站建设wordpress主题猫
  • 网站建设需要编码不有没有专门的网站做品牌授权的
  • 做爰在线网站免费空间列表