当前位置：首页 > news >正文

商城系统小说成都seo优化公司排名

news 2025/12/18 16:50:43

商城系统小说,成都seo优化公司排名,网站后台页面内容不显示,系统那个网站免费原文标题#xff1a;Domain Adaptive YOLO for One-Stage Cross-Domain Detection 中文标题#xff1a;面向单阶段跨域检测的域自适应YOLO 1、Abstract 域转移是目标检测器在实际应用中推广的主要挑战。两级检测器的域自适应新兴技术有助于解决这个问题。然而#xff0c;两级… 原文标题Domain Adaptive YOLO for One-Stage Cross-Domain Detection 中文标题面向单阶段跨域检测的域自适应YOLO 1、Abstract 域转移是目标检测器在实际应用中推广的主要挑战。两级检测器的域自适应新兴技术有助于解决这个问题。然而两级检测器由于其耗时较长并不是工业应用的首选。本文提出了一种新颖的域自适应 YOLODA-YOLO来提高单级检测器的跨域性能。图像级特征对齐用于严格匹配纹理等局部特征并松散地匹配照明等全局特征。提出多尺度实例级特征对齐以有效减少实例域偏移例如目标外观和视点的变化。对这些域分类器进行共识正则化以帮助网络生成域不变检测。我们在 Cityscapes、KITTI、SIM10K 等流行数据集上评估我们提出的方法。在不同的跨域场景下进行测试时结果表明有显著的改进。关键词域转移、域适应、单阶段检测器、YOLO 2、Introduction 2.1、目标检测面临的挑战目标检测旨在对给定图像中感兴趣的目标进行定位和分类。近年来自深度卷积神经网络CNN出现以来大量成功的目标检测模型一直被提出。然而一个被称为“领域转移”的新挑战开始困扰计算机视觉社区。域漂移是指源域和目标域之间的分布不匹配导致性能下降。它是由图像的变化引起的包括不同的天气条件相机的视角图像质量等。以自动驾驶为例一个可靠的目标检测模型应该在任何情况下都能稳定地工作然而训练数据通常是在视野清晰的晴天收集的而实际上汽车可能会遇到恶劣的天气条件包括雪和雾导致能见度受到影响此外相机的位置在测试环境中可能会有所不同从而导致视点变化。 2.2、领域自适应的发展理想情况下在目标域上重新标记是解决域转移问题的最直接的方法。但这种手工注释会带来昂贵的时间和经济成本。出于对无需注释方法的期望领域适应努力消除领域差异而无需对目标领域进行监督。领域自适应DA首先被广泛应用于分类任务中使用最大平均差异MMD等距离度量单位来衡量域偏移并监督模型学习领域不变特征。后来使用领域分类器和梯度反转层GRL的对抗训练策略被证明是一种更有效的学习鲁棒跨领域特征的方法。在训练阶段领域分类器对源域和目标域数据的区分能力逐渐提高骨干特征提取器学习生成更多的领域不可区分特征。最后特征提取器能够生成域不变特征。 2.3、域自适应目标检测 1用于目标检测的 DA 继承并扩展了相同的对抗训练思想。与分类 DA 类似检测 DA 对骨干特征提取器采用对抗性训练。然而除了分类之外目标检测器还需要对每个感兴趣的物体进行定位和分类。因此使用一个额外的域分类器对每个实例特征进行分类以促使特征提取器在实例级别上是域不变的。这种对抗性检测自适应方法是由Chen等人2018首创的他们使用Faster R-CNN作为基本检测器模型。随后的研究遵循了这一惯例Faster R-CNN成为了主要的领域自适应检测器。此外Faster R-CNN的两阶段特性使得它非常适合在实例级特征上应用域自适应。区域建议网络RPN和兴趣区域池ROI产生的统一实例级特征便于领域分类器直接使用。 2尽管 Faster R-CNN 很受欢迎并且可以方便地利用区域提议网络(RPN)但在时间性能至关重要的现实应用中Faster R-CNN 并不是理想选择。与 Faster R-CNN 相比YOLO (2016)是一种具有代表性的单阶段检测器由于其惊人的实时性能、简单性和便携性而成为更有利的选择。YOLOv3 (2018)是YOLO的流行版本广泛应用于工业领域包括视频监控、人群检测和自动驾驶。然而对单阶段检测器的域自适应研究仍然很少。 2.4、本文提出的方法在本文中我们介绍了一种新颖的域自适应 YOLODA-YOLO它使用单级检测器 YOLOv3 执行域自适应。该模型的总体架构如下图1所示。首先我们提出回归图像对齐Regressive Image AlignmentRIA来减少图像级别的域差异。RIA 在 YOLOv3 特征提取器的不同层使用三个域分类器来预测特征图的域标签。然后它采用对抗性训练策略adversarial training strategy来对齐图像级别特征。通过为这些图像级域分类器分配不同的权重RIA 严格对齐局部特征并宽松地对齐全局特征。其次我们提出多尺度实例对齐Multi-Scale Instance AlignmentMSIA用于实例级域适应。由于没有两阶段检测器中的区域建议网络RPNMSIA 利用了 YOLOv3 的三尺度检测。MSIA 使用三个域分类器进行这些检测以对齐实例级特征。最后我们将多级一致性正则化Multi-Level Consensus RegularizationMLCR应用于域分类器以驱动网络产生域不变检测。 2.5、本文贡献综上所述我们在本文中的贡献有三个方面 1)我们设计了两个新的领域自适应模块来解决领域移位问题。 2)我们提出了一种用于一级检测器的领域自适应范式。据我们所知这是第一个提出统一一级检测器的图像级和实例级自适应的工作。 3)利用Cityscapes、Foggy Cityscapes、KITTI、SIM10K数据集进行了广泛的领域自适应实验。结果表明本文提出的自适应YOLO在不同的跨域场景下是有效的。 3、Related Works 3.1、Object Detection 随着深度神经网络的应用目标检测方法蓬勃发展。它们大致可分为两类两阶段法和单阶段法。R-CNN系列是两阶段检测器的代表首先生成兴趣区域提案然后对其进行分类。同时YOLO作为单阶段检测器的代表以其实时性成为应用广泛的一种检测器。YOLOv2 (2017) 和YOLOv3 (2018)是作为增量改进引入的集成了残差块等有效技术。YOLOv4 (2020)是各种技巧的组合可以实现最佳的速度和准确性。 3.2、Domain Adaptation 领域自适应旨在通过使用带注释的源域数据来提高模型在目标领域上的性能。首先通过匹配源域和目标域的边缘分布和条件分布将其应用到分类任务中。以往工作包括TCA(2010)、JDA(2013)、JAN(2017)。随着生成式对抗网络GAN(2014) 的出现对抗训练策略因其有效性而受到欢迎。事实证明该策略在学习领域不变特征方面非常有帮助并导致了一系列对抗性领域自适应的研究包括DANN(2016)DSN(2016)SAN(2018)等等。 3.3、Domain Adaptation for Object detection Domain Adaptive Faster R-CNN(2018)使用两阶段检测器Faster R-CNN探索了目标检测的对抗性域自适应。后续若干研究遵循了两阶段的范式并做出了相当大的改进。尽管两级检测器便于域自适应但在工业应用中很少使用。在实际应用中单阶段探测器具有无可比拟的速度性能。因此将单阶段检测器与领域自适应相结合具有重要的意义但相关研究很少。这种情况促使我们开展本文提出的工作。关于单阶段检测器的域自适应的研究有限。YOLO in the Dark Sasakawa and Nagahara (2020) 通过合并多个预先训练的模型来适应 YOLO。MS-DAYOLO (2021) 对 YOLO 模型采用多尺度图像级自适应。然而它没有考虑实例级自适应而实例级自适应被证明是同等甚至是更重要的。实例特征适应是一项更具挑战性的任务因为在单阶段检测器中没有两阶段检测器中的区域建议网络RPN。在本文中我们通过使用 YOLO 的检测来解决这个问题。 4、Methodology 4.1、Problem Definition问题定义 1域适应的目标是将从已标记的源域 Ds 学到的知识转移到未标记的目标域 Dt。Dt 的分布与 Ds 类似但不完全相同。源域提供了完整的注释表示为 Ds {(xsi , ysi , bsi )}nsi其中 bsi ∈ Rk×4 表示图像数据 x 的边界框坐标ysi ∈ Rk× 1 表示相应边界框的类别标签。相应地目标域没有注释表示为 Dt {(xtj)}ntj 。通过使用已标记的源域数据 Ds 和未标记的目标域数据 Dt源检测器可以很好地推广到目标域。 2源域和目标域的联合分布分别表示为 PS(C, B, I) 和 PT(C, B, I)其中 I 代表图像表示B 代表边界框C ∈ {1, .. .,M} 表示对象的类别标签M 是类别总数。域偏移源于域之间的联合分布不匹配即 PS(C, B, I) \ PT(C, B, I)。 3联合分布可以用两种方式分解P(C, B, I) P(C, B | I)P(I) 和 P(C, B, I) P(C | B , I)P(B, I)。通过强制 PS(I) PT(I) 和 PS(B, I) PT(B, I)我们可以减轻图像级别和实例级别上的域不匹配。 4.2、A Closer Look at Domain Adaptive Object Detection仔细研究域自适应目标检测 1作为对抗性自适应检测的开创性工作Domain Adaptive Faster R-CNN(2018) 提出 a、图像对齐重点是弥合由图像级别变化例如不同的图像质量和照明引起的域间隙 b、实例对齐重点是减少由实例级别变化例如对象大小差异引起的实例级别域偏移 c、一致性正则化旨在增强域不变定位能力。 2尽管这样的范例是有效的但是基于Faster R-CNN的域自适应不能很好地应用于现实世界。原因是双重的首先像Faster R-CNN这样的两级检测器需要对骨干、RPN和检测头进行训练设置既不方便也不直接其次两级检测器的时间性能不理想例如由Facebook AI Research实现的最先进的两级探测器Detectron2几乎无法达到实时性能。相反像YOLO这样的单阶段检测器因其在实践中的优越性而在工业应用中得到了广泛的应用。例如PP-YOLO (2020)广泛应用于行人检测、汽车检测和产品质量检测。单阶段检测器易于使用可自由定制并且在时间成本和计算成本方面可以实现高性能。 3代表性的单阶段检测器YOLOv3由两部分组成主干特征提取器Darknet-53和三个不同尺度的检测层。特征提取器以图像作为输入分别向三个检测层提供三个不同大小的特征图。因此在三个不同的尺度上产生检测输出并组合在一起作为最终输出。YOLOv3的训练损失由定位损失、分类损失和置信度损失组成其中前两项是定位损失后两项是分类损失最后一项是置信损失。 4.3、Domain Adaptive YOLO基于YOLO的域自适应 4.3.1、Regressive Image Alignment回归图像对齐 1在Chen等人2018的研究中图像级对齐被证明是一种有效的域自适应方法。然而由于梯度消失仅对最终特征图final feature map中的特征进行对齐无法充分消除域漂移。因此Xie等人2019和Hnewa和Radha2021都提出在中间特征图上使用额外的领域分类器这被证明是一种有效的方法。然而正如Saito et al.2019所指出的那样对于那些具有大感受野large receptive field的特征即特征提取器后半部分的特征如果进行过于强烈的匹配strong matching在处理大的领域偏移时可能会导致负迁移negative transfer。负迁移是指源领域的模型在目标领域上的性能不仅没有提升反而下降了。负迁移的原因大感受野的特征通常捕捉了更多的上下文信息这些信息在源领域和目标领域之间可能差异很大。如果这些特征被过于强烈地匹配那么模型可能会过度适应源领域的特定上下文而忽略了那些对目标领域更重要的、更加通用的特征。 2为了解决这个问题我们提出了回归图像对齐RIA。我们首先像以前的工作一样将多个域分类器应用于中间特征图和最终特征图。然后当这些分类器采用更深的特征图作为输入时我们为这些分类器分配递减的权重。RIA 损失函数可以写为其中Φ(u,v)i,k 表示第 i 个图像对应的位于二维坐标 (u, v) 处第 k 个特征图的激活函数输出值。fk 表示域分类器。Di 是第 i 个训练图像的域标签在有监督的源领域Di通常是1在无监督的目标领域Di通常是 0。λk 表示分配给域分类器的权重随着 k 增加即从浅层到深层λk 会减小这意味着对深层特征的对齐强度会减弱以避免负迁移。RIA 完全适应骨干特征提取器同时减少可能的负迁移。fkΦ(u,v)i,k这是第 k 个领域分类器的输出它预测特征激活值 Φ(u,v)i,k 来自源领域的概率。 4.3.2、Multi-Scale Instance Alignment多尺度实例对齐 Hnewa和Radha2021是第一个在单阶段检测器中引入对抗性域适应的工作但只是初级的。因为它没有考虑实例对齐这与Chen等人2018所展示的图像对齐效果差不多。对于单阶段检测器来说实例对齐是一项具有挑战性的任务因为实例特性不像在两阶段检测器中那样可以随意得到。我们提出了多尺度实例对齐MSIA来解决这一挑战。具体来说我们从YOLOv3的三个不同尺度检测层中提取检测结果并使用ROI池从相应的特征图中提取实例级特征。通过访问实例特性我们可以合并实例对齐丢失它可以写为其中pki,j 表示第 i 个图像中第 k 个尺度的第 j 个检测框的概率输出。对齐实例特征有助于消除源域和目标域的感兴趣目标之间的外观、形状、视点的差异。 4.3.3、Multi-Level Consistency Regularization多级一致性正则化通过采用图像和实例对齐网络能够产生域不变特征。然而它不能保证产生域不变的检测这对于对目标检测也至关重要。理想情况下我们期望获得域不变的边界框预测器 P(B|I)。但实际上边界框预测器 P(B|D, I) 是有偏差的其中 D 表示域标签。我们有为了减轻边界框预测器偏差有必要强制执行 P(D|B, I) P(D|I)这是实例级和图像级域分类器之间的共识。因此P(B|D, I) 将近似于 P(B|I)。由于YOLOv3在三种不同尺度上检测目标我们提出了多级一致性正则化来自适应地检测不同尺度上的目标可以写为其中|Ik| 表示第 k 个特征图上的激活数量。通过实施这种多级正则化YOLO 的每个检测层都被鼓励产生域不变检测。 4.3.4、Network Overview网络概况 1我们网络的完整架构如下图 1 所示。我们在 YOLOv3 上构建了我们提出的域自适应模块它们的组合构成了域自适应 YOLO。请注意所示的架构是专门为训练阶段设计的而检测器是测试阶段的唯一组件。 2YOLOv3首先使用一系列特征提取器来生成小、中、大尺度的三个特征图。两个连续的上采样层将最后一个特征图小比例作为输入并生成一个新的中型和大型特征图并与之前的特征图连接起来。最新的三个特征图被输入到检测层并生成最终检测结果。 3RIA模块将三个尺度特征图作为输入并使用领域分类器来预测它们的领域标签。MSIA模块使用不同的尺度检测来提取实例级特征并将它们提供给域分类器。通过eq.(2)和eq.(3)计算RIA和MSIA的域分类损失以适应网络。最后通过MLCR模块对相应的图像级和实例级域分类器进行正则化监督网络生成域不变检测。完整的训练损失函数如下: 其中λ为平衡域自适应损失影响的超参数。这种域适应损失被GRL逆转来进行对抗性训练。 5、Experiments 在本节中我们对提出的DA-YOLO模型在三种域适应场景下进行了评估: 1)从晴朗到有雾from clear to foggy源域是晴天采集的照片目标域是雾天。 2)从一个场景到另一个场景from one scene to another源域和目标域包含不同场景下不同相机拍摄的照片。 3)从合成到真实from synthetic to real源域是电脑游戏中的图像目标域是现实世界。 5.1、Datasets 5.1.1、Cityscapes(2016) 收集了50个不同城市良好/中等天气条件下的城市街景。它有30个类别的5000张注释图像。 5.1.2、Foggy Cityscapes(2018) 使用Cityscapes的相同图像模拟雾蒙蒙的场景使其成为领域适应实验的理想选择。它从Cityscapes中继承了相同的注释。 5.1.3、KITTI(2015) 通过在中型城市卡尔斯鲁厄、农村地区和高速公路上驾驶来收集图像。它有14999张图片包括 person 和 car 等类。在我们的实验中我们只使用 car 的 6684 个训练图像和注释。 5.1.4、SIM10K(2016) 从一款名为侠盗猎车手 V(GTA V)的视频游戏中收集合成图像。它总共有 10,000 张图像和注释主要是针对汽车的。 5.2、Protocols 我们报告了每个类别的平均精度(AP)和平均平均精度(mAP)评估阈值为0.5。为了验证我们提出的方法我们不仅报告了网络的最终结果还报告了不同变体(RIA, MSIA, MLCR)的结果。我们使用原始的YOLOv3作为基线它在源域数据上进行训练而不使用域适应。通过使用带注释的目标域数据训练YOLOv3我们展示了理想的性能(oracle)。我们还将我们的结果与基于Faster R-CNN的现有SOTA方法进行了比较。 5.3、Experiments Details 实验遵循传统无监督域自适应设置。源域提供了完整的注释而目标域没有。每一个训练批次由来自源域的一张图像和来自目标域的一张图像组成。每个图像被调整为宽度416和高度416以适应YOLOv3网络。我们的代码是基于PyTorch实现的YOLOv3和Domain Adaptive Faster RCNN。在执行自适应之前使用预训练的权重对网络进行初始化并且所有超参数保持上述两种实现的默认值。具体来说骨干特征提取器的学习率为0.001其余层的学习率为0.01。采用了0.0005权值衰减的标准SGD算法。 5.4、Results 1表1将我们的模型与其他基于Faster R-CNN的模型进行了比较。我们在两个域适应设置中进行了评估KITTI到Cityscapes和SIM10K到Cityscapes。虽然DAF(2018)是有效的但它只对Faster R-CNN的最终特征映射进行图像级对齐。MADAF(2019)和MLDAF(2019)对DAF进行扩展并在骨干特征提取器的不同层次上对齐图像级特征。STRWK(2019)对局部特征进行强对齐对全局特征进行弱对齐。它们都没有有效地扩展实例对齐模块。我们提出的方法在图像和实例级别上进行多级对齐实现了17.6%和4.5%的性能提升领先于其他模型。 2下图2为检测结果示例。在图中基线模型(仅在源域数据上训练)遗漏了一些汽车但本文提出的模型可以正确地检测到它们。 3如下图3所示我们使用 t-SNE 可视化了从Cityscapes到Foggy Cityscapes的域适应中的图像级特征。红色和蓝色分别表示源域和目标域。我们可以看到左图中源域和目标域的特征明显分离而右图中源域和目标域的特征更加接近或重叠这表明模型成功地减少了领域之间的分布差异。因此与仅源模型(在源域上训练而不进行域适应)相比我们的自适应模型全局特征对齐得很好。 t-SNEt-distributed Stochastic Neighbor Embedding是一种常用的数据可视化技术它可以直观地观察高维特征在低维空间中的分布情况。 5.5、Ablation Study 1通过Cityscapes对Foggy Cityscapes和KITTI对Cityscapes两种域适应场景的消融研究验证了三个模块的有效性。性能结果总结在下表2和下表3中。在从Cityscapes到Foggy Cityscapes的任务中通过对每个图像级域分类器应用同等权重的图像对齐(EIA)我们获得了0.5%的性能提升。 2将MSIA和MLCR进一步汇总可以分别提高0.4%和1.2%说明这两个模块是有效的。最后用RIA代替EIA我们有1.5%的提升。这验证了回归权值分配在图像级自适应中的显著有效性。与常规多级图像对齐方法相比RIA对图像级域分类器的权重递减。这将强烈匹配局部特征这对域适应更重要。 3在从KITTI到Cityscapes的任务中也取得了类似的结果。具体来说对各个模块进行累加分别获得5.8%、13.6%、15.4%、17.6%的性能增益。再次验证各模块的有效性。EIA表示每个图像级域分类器具有相同权重的图像对齐。RIA表示三个图像级域分类器的权值递减的图像对齐即RIA模块。 6、Conclusion 本文提出了一种有效的单阶段跨域自适应DA-YOLO算法。与以往的方法相比我们在单阶段检测器上建立了域自适应模型。此外我们还成功地为单阶段检测器引入了实例级自适应。在多个跨域数据集上的充分实验表明我们的方法优于先前基于Faster R-CNN的方法并且提出的三个域自适应模块都是有效的。

查看全文

http://www.w-s-a.com/news/521922/