当前位置：首页 > news >正文

网站开发培训周末班Wordpress导航标签icon

news 2026/4/8 23:02:40

网站开发培训周末班,Wordpress导航标签icon,关键词优化报价,apple 网站模板本文正在参加人工智能创作者扶持计划提及到计算机视觉的目标检测#xff0c;我们一般会最先想到卷积神经网络#xff08;CNN#xff09;#xff0c;因为这算是目标检测领域的开山之作了#xff0c;在很长的一段时间里人们都折服于卷积神经网络在图像处理领域的优势… 本文正在参加人工智能创作者扶持计划提及到计算机视觉的目标检测我们一般会最先想到卷积神经网络CNN因为这算是目标检测领域的开山之作了在很长的一段时间里人们都折服于卷积神经网络在图像处理领域的优势再后来随着图像领域的大神不断出现结构简单且速度精度均有提升的目标检测网络也逐渐问世并且版本的更迭使其应用优势越来越大最有代表性的是YOLO目前仍是目标检测的热门。然而人们对于目标检测的方法仍然进行不断探索今天就通过一篇基于Transformer的目标检测方法的论文带领大家换个角度去看待目标检测问题。论文地址arxiv.org/pdf/2005.12… 代码地址github.com/facebookres… Transformer Transformer是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。Transformer的本质上是一个 Encoder-Decoder 架构。左边的是编码器结构右边的是解码器结构。结构示意图如下。 DETR DETR的简介 DETR即Detection Transformer是Facebook AI的研究者提出的Transformer的视觉版本可以用于目标检测也可以用于全景分割。这是第一个将Transformer成功整合为检测pipeline中心构建块的目标检测框架。与之前的目标检测方法相比DETR有效地消除了对许多手工设计的组件的需求例如非最大抑制、Anchor生成等。 DETR的流程通过一个CNN对输入图片抽取特征然后将特征图降维,加上位置编码拉直输入Transformer。 Transformer Encoder部分就是使得网络更好地去学习全局的特征使用Transformer Decoder以及Object Query从特征中学习要检测的物体将Object Query的结果和真值进行二分图匹配Set-to-Set Loss最后在匹配上的结果上计算分类Loss和位置回归Loss。 DETR的结构 DETR的网络结构如上图所示由四个主要模块组成backbone编码器解码器以及预测头。其中backbone是一个卷积网络提取特征并将其降维到d×HW。spatial positional encoding将位置信息编码到特征中使得模型能够更好地理解物体之间的空间关系。DETR使用了两个Transformer模块分别作为编码器和解码器。其中编码器用于处理输入特征解码器用于处理输出特征。DETR使用了一个全连接层来进行分类。下面具体介绍一下各个模块的作用。 backbone DETR使用ResNet作为backbone提取图片特征同时会使用一个1×1的卷积进行降维到d×HW。因为transformer的编码器模块只处理序列输入所以后续还需要把CNN特征展开为一个序列。 spatial positional encoding 式中PE为二维矩阵大小跟输入embedding的维度一样行表示词语列表示词向量pos表示词语在句子中的位置dmodel表示词向量的维度i表示词向量的位置。因此上述公式表示在每个词语的词向量的偶数位置添加sin变量奇数位置添加cos变量从而来填满整个PE矩阵然后concatenate送到编码器中。简要概括就是将位置信息编码到特征中使得模型能够更好地理解物体之间的空间关系。 transformer DETR使用了两个Transformer模块分别作为编码器和解码器。其中编码器用于处理输入特征解码器用于处理输出特征。结构图如下与原始Transformer的不同之处在于DETR在每个解码器层并行解码N个对象由于解码器也是排列不变的N个输入嵌入必须是不同的以产生不同的结果。这些输入嵌入是习得的位置编码我们称之为object queries与编码器类似我们将它们添加到每个注意层的输入中。 N个object queries由解码器转换为output embedding。然后它们被FFN独立解码为盒坐标和类标签产生N个最终预测。该模型使用它们之间的成对关系对所有对象进行全局推理同时能够使用整个图像作为上下文。 FNN 最后的 Bounding Box FFN 是由具有ReLU激活函数的3层线性层计算的。 Class FFN是由一个线性层计算的。 FFN预测框标准化中心坐标高度和宽度使用softmax 函数激活获得预测类标签。所以DETR使用了一个全连接层来进行分类。二分图匹配 DETR预测了一组固定大小的 N 100 个边界框为了解决预测框和真实标注框匹配的问题使用匈牙利算法进行二分图匹配即对预测集合和真实集合的元素进行一一对应使得匹配损失最小。该算法实现预测值与真值之间最优的匹配并且是一一对应不会多个预测值匹配到同一个ground truth上。假设预测结果是100个那么标注信息也要是100个标注如果小于100就用无物体信息去填充。 LOSS函数分类损失交叉熵损失函数检测框位置损失L1损失和IOU损失的加权和且Iou的计算采用了GIOU损失 DETR的优势 DETR相对于Faster-RCNN具有更简单的架构更小的网络参数方面更高的吞吐量和更快的训练。此外DETR是基于Transformer架构的该架构自2017年以来已经“革命化”了自然语言处理。其中一个主要优点是其全局计算和完美记忆这使得它们比RNN更适合处理长序列。总结这篇论文主要介绍了一种名为“DEtection TRansformer”DETR的新框架它使用了一种基于集合的全局损失通过二分图匹配强制进行唯一预测并使用transformer编码器-解码器架构。DETR可以在挑战性的COCO物体检测数据集上展示与Faster RCNN基线相当的准确性和运行时性能。此外DETR可以轻松地推广到以统一的方式生成全景分割。其它论文中还提到了其他的比如目标检测的实现细节之类的以及其在不同数据集上的实现效果感兴趣的可以自己去看一下论文。如何学习AI大模型作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】一、全套AGI大模型学习路线 AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

查看全文

http://www.w-s-a.com/news/157657/