当前位置: 首页 > news >正文

内乡微网站开发北京代理记账服务公司

内乡微网站开发,北京代理记账服务公司,做一个中英文双语网站建设多少钱,北京光辉网站建设本文的主题是多模态融合和图文理解#xff0c;文中提出了一种名为RegionSpot的新颖区域识别架构#xff0c;旨在解决计算机视觉中的一个关键问题#xff1a;理解无约束图像中的各个区域或patch的语义。这在开放世界目标检测等领域是一个具有挑战性的任务。 关于这一块…本文的主题是多模态融合和图文理解文中提出了一种名为RegionSpot的新颖区域识别架构旨在解决计算机视觉中的一个关键问题理解无约束图像中的各个区域或patch的语义。这在开放世界目标检测等领域是一个具有挑战性的任务。 关于这一块大家所熟知的大都是基于图像级别的视觉-语言ViL模型如CLIP以及使用区域标签对的对比模型的训练等方法。然而这些方法存在一些问题包括 计算资源要求高 容易受到数据噪音的干扰 对上下文信息的不足 为了解决这些问题作者门提出了RegionSpot其核心思想是将来自局部基础模型的位置感知信息与来自ViL模型的语义信息相结合。这种方法的优势在于能够充分利用预训练的知识同时最小化训练的开销。此外文中还介绍了一种轻量级的基于注意力机制的知识集成模块以优化模型性能。 图1展示了区域级视觉理解架构 (a)表示通过从裁剪区域中提取图像级 ViL 表示并将其合并到检测模型中来学习区域识别模型。 (b)表示使用大量区域标签对数据集完全微调视觉和文本模型。 ©表示本文方法其集成了预训练冻结定位和 ViL 模型强调学习它们的表征相关性。 通过在开放世界物体识别的背景下进行的大量实验表明所提方法相对于以前的方法取得了显著的性能改进同时节省了大量的计算资源。例如使用8个V100 GPU仅在一天内便可对300万数据对进行training。最终该模型在mAP指标上比GLIP还要高出6.5%尤其是在更具挑战性和罕见的类别方面提升高达14.8%! 方法 如上所述RegionSpot 旨在使用预训练的ViL模型和局部模型来获取区域级别的表示以实现鲁棒的物体概念化特别是在开放世界的区域识别中。下面我们为大家详细地介绍下。 预备知识 Vision-language foundation models这些模型使用对比学习的技术将视觉和文本数据映射到一个共享的嵌入空间以最小化图像和其文本描述之间的距离并最大化无关对之间的距离例如CLIP和ALIGN。 Localization foundation models这些模型旨在进行图像的局部理解特别是在目标检测和分割任务中。比如Meta开源的SAM模型它是一个里程碑式的工作已经在大规模数据集上进行了训练包括超过10亿自动生成的掩模以及1100万张图像。 使用冻结基础模型的区域文本对齐 这一部分我们重点关注下如何获取位置感知标记和图像级语义特征并通过交叉注意力机制进行区域文本对齐。 区域级别的位置感知标记作者使用手动标注的目标边界框来表示图像的兴趣区域。对于这些区域文中是使用SAM模型来提取位置感知标记。这些标记通过一个Transformer解码器生成这个过程有点像DETR的架构生成一个称为“位置感知”的标记它包含了有关目标的重要信息包括其纹理和位置。 图像级语义特征图一幅图像可以包含多个对象和多个类别捕捉了综合的上下文信息。为了充分利用 ViL 模型作者将输入图像调整到所需的尺寸然后输入到 ViL 模型中获得图像级语义特征图。 关联位置感知标记和语义特征图RegionSpot 中使用了交叉注意力机制来建立区域级别的位置感知标记和图像级语义特征图之间的联系。在这个机制中位置感知标记充当查询而语义特征图充当键和值。这种关系可以通过公式表示 其中 是得分 是位置感知标记的转换 和 是来自 的线性投影 则是投影特征维度。其实就是常规的 QKV 操作可以有效地实现信息融合至于融合的 gap 可能只有上帝知道。 损失函数最后便是生成文本嵌入通过处理类别特定的文本和提示模板例如场景中类别的照片使用文本编码器。然后执行每个语义标记和其相应文本特征的点积操作以计算匹配分数。这些分数可以使用Focal loss进行监督。 整体来说方法部分的核心便是如何从两个不同的基础模型中提取信息并通过交叉注意力机制实现区域文本对齐以获得区域级别的语义表示。通过下面的实验部分我们可以直观感受到该方法在解决开放世界的物体识别问题中表现出色其提供了丰富的细节来支持RegionSpot。 实验 训练数据 RegionSpot 模型采用了多个包含不同类别标签的数据集以构建强大的训练环境。这种灵活的架构允许我们将独热标签one-hot labels替换为类别名称字符串。其中作者提到了使用了公开可用的检测数据集总共包括大约300万张图像。这些数据集包括 Objects 365 (O365)、OpenImages (OI) 和 V3Det (V3D)。 Objects 365大规模的目标检测数据集包含了365个不同的对象类别总共有约66万张图像。文中是使用一个经过优化的版本其中包含超过1000万个边界框每张图像平均约15.8个注释。 OpenImages这是目前最大的公共对象检测数据集包括约1460万个边界框注释每张图像平均约8个注释。 V3Det这个数据集通过详细的组织在类别树中构建了多达13,029个类别。 基线设置 Benchmark 使用了LVIS检测数据集该数据集包含1203个类别和19809张图像用于验证。作者强调不仅仅优化在COCO数据集上表现的性能因为COCO只包括Objects365训练数据集中的80个常见类别这不能充分评估模型在开放世界环境中的泛化能力。 实现细节 优化器: AdamW初始学习率为2.5 x 10^-5 硬件资源8个GPU上batchsize 设置为 16 超参数450,000 iters学习率在350,000次和420,000次迭代时除以10 训练策略 第一阶段是利用Objects365来启动区域-词对齐的学习 第二阶段是高级学习使用来自三个不同的对象检测数据集的丰富信息来进行区域-词对齐的学习。 效果 可以看出相对于 GLIPRegionSpot 的区域级语义理解能力更强。 总结 简单来说今天介绍的这篇文章主要贡献是提出了一种有效的多模态融合方法用于改进图像中区域的语义理解具有潜在的广泛应用前景。文中提出了将预训练的ViL模型与局部模型相结合的 RegionSpot 架构以改进区域级别的视觉理解。RegionSpot 的方法旨在优化效率和数据利用方面具有卓越性避免了从头开始训练的必要。通过大量实验证明RegionSpot 在开放世界物体理解领域的性能明显优于 GLIP 等现有方法。
http://www.w-s-a.com/news/716158/

相关文章:

  • 住房城市乡建设部网站装修平台有哪些
  • 小米网站 用什么做的深圳广告公司前十强
  • 勤哲网站开发视频瑞安 网站建设培训
  • 有个蓝色章鱼做标志的网站高端的网站建设怎么做
  • 建站网址导航hao123html网页设计实验总结
  • 西宁市网站建设价格丽水集团网站建设
  • 长宁怎么做网站优化好本机怎么放自己做的网站
  • 诚信网站备案中心网站字体怎么设置
  • 企业网站建设费是无形资产吗佛山网站建设哪个好点
  • 网站建设就业方向国开行网站毕业申请怎么做
  • 创建一个网站的费用wordpress 4.0 安装
  • 会员登录系统网站建设dw软件是做什么用的
  • 手机网站被做跳转长沙网上购物超市
  • 网站建设中网站需求分析设计网站推荐html代码
  • 容易收录的网站台州汇客网站建设
  • 企业网站源码百度网盘下载网站备案号如何查询密码
  • 个人网站建设课程宣传栏制作效果图
  • 自己做的网站能上传吗网上做彩票网站排名
  • 教育培训网站模板下载自己做商务网站有什么利弊
  • 平面设计公司网站兰州室内设计公司排名
  • 个人工作室注册条件温州seo结算
  • 360免费建站系统中国建设银行官网站黄金部王毅
  • 罗源福州网站建设个体户可以网站备案吗
  • 网站开发 专有名词pc网站建设和推广
  • 上海部道网站 建设conoha wordpress
  • 手机测评做视频网站宝塔可以做二级域名网站么
  • 代理公司注册济南重庆seo优化效果好
  • 佛山市骏域网站建设专家徐州网站建设价格
  • 公司做网站多济南好的网站建设公司排名
  • 网站维护的方式有哪几种该网站在工信部的icp ip地址