当前位置：首页 > news >正文

怎么做淘宝网站云浮seo

news 2025/12/31 8:46:19

怎么做淘宝网站,云浮seo,网站建设要注意哪些,工信部网站备案规定前言近期参与到了手写AI的车道线检测的学习中去#xff0c;以此系列笔记记录学习与思考的全过程。车道线检测系列会持续更新#xff0c;力求完整精炼#xff0c;引人启示。所需前期知识#xff0c;可以结合手写AI进行系统的学习。 BEV感知系列是对论文Delving into the De…前言近期参与到了手写AI的车道线检测的学习中去以此系列笔记记录学习与思考的全过程。车道线检测系列会持续更新力求完整精炼引人启示。所需前期知识可以结合手写AI进行系统的学习。 BEV感知系列是对论文Delving into the Devils of Bird’s-eye-viewPerception: A Review, Evaluation and Recipe的翻译整理有多处瑕疵敬请谅解。更多相关工作在本节中我们描述了3D感知任务及其传统解决方案包括基于单眼相机的3D物体检测、基于激光雷达的3D物体探测和分割以及基于传感器融合的3D物体侦测。 A部分基于单目摄像机的物体检测基于单目相机的方法以RGB图像作为输入并试图预测每个物体的3D位置和类别。单目3D检测的主要挑战是RGB图像缺乏深度信息因此这些方法需要预测深度。由于从单个图像估计深度是一个不适定的问题通常基于单目相机的方法比基于激光雷达的方法具有更差的性能。Mono3D[141]提出了一种具有上下文和语义信息的3D提案生成方法并使用R-CNN-like架构来预测3D框。Deep3DBox[142]首先预测2D边界框然后从2D框中估计3D信息扩展了先进的2D检测器。3D-RCNN[143]还在2D检测中扩展了R-CNN不仅预测了3D边界框还渲染了每个对象的形状。Center Net[144]是一个无锚2D检测器用于预测对象中心和到长方体的距离。它还可以通过预测3D尺寸、深度和方向轻松扩展到3D检测。伪激光雷达[86]首先预测深度图然后使用相机参数将具有深度的图像反向投影到激光雷达坐标系中的3D点云。然后任何基于激光雷达的探测器都可以应用于预测的“伪激光雷达”。M3D-RPN[145]使用单级3D区域建议网络具有两条并行路径用于特征提取**一条具有规则卷积的全局路径以及一条使用H空间中的非共享Conv核的局部深度感知路径。**MonoPSR[146]首先检测2D框并输入整个图像和裁剪对象然后执行两个并行分支一个是预测粗框的建议生成模块另一个是用于预测裁剪对象网格的实例重建模块。在第二个方案细化模块中使用重构的实例来获得细化的3D框。ROI-10D[147]首先预测2D框和深度然后将它们提升到3D ROI并使用RoIAlign裁剪3D特征以回归3D边界框。它还可以很容易地扩展到三维网格预测。SMOKE[82]是一种单阶段无锚方法直接预测对象的3D中心以及3D框的大小和方向。FCOS3D[81]是一种最新的代表性单目3D检测方法它扩展了最先进的2D检测器FCOS[100]。回归分支类似于CenterNet它们都在回归分支中添加了深度和框大小预测。FCOS3D还介绍了一些技巧例如翻转增加和测试时间增加。PGD[62]分析了深度估计在单目3D检测中的重要性然后提出了一个几何关系图来捕捉每个对象的关系从而获得更好的深度估计。 Mono3D是一种单目3D物体检测方法用于从单个2D图像中推断出物体的3D位置和尺寸。这项技术面临着从单一视角中恢复3D信息的挑战因为图像本身缺乏深度信息。Mono3D通过以下步骤来解决这一问题 3D提案生成这个阶段的目标是生成潜在的3D边界框提案这些提案将用于后续的物体检测过程。Mono3D通过考虑物体在真实世界中可能出现的位置和大小结合图像中的上下文线索如地平线的位置或物体与路面的关系来创建这些提案。上下文和语义信息的利用上下文信息例如物体周围的场景结构以及其他物体的相对位置和尺寸对于确定单个物体在3D空间中的位置非常重要。此外语义信息即图像的像素属于哪个类别如车辆、行人、道路可以帮助模型更准确地理解场景。 R-CNN-like架构 R-CNNRegions with Convolutional Neural Networks是一种流行的物体检测框架它先从图像中提取出潜在的感兴趣区域然后使用卷积神经网络CNN来分类这些区域并精细化它们的边界框。Mono3D采用了类似的架构但它的重点是在3D空间中进行预测。在专业性的理解中Mono3D代表了尝试仅通过视觉线索来推断出3D世界信息的尖端技术。这种方法在自动驾驶汽车和机器人视觉中尤其有价值因为它不依赖于外部传感器如雷达或激光雷达来获取深度信息。然而由于它只使用单眼图像Mono3D可能会受到估计深度不准确的限制。尽管如此它仍然是理解场景几何和进一步研究单目3D检测技术的有力工具。伪激光雷达是一种技术旨在模仿激光雷达传感器的功能但实际上是使用单眼相机作为信息来源。这种方法允许研究者和工程师使用比真正的激光雷达更便宜且更易于获得的硬件来进行3D感知。伪激光雷达技术通常遵循以下步骤深度图预测使用深度估计算法从单个2D图像中预测出每个像素的深度。这可以通过监督学习使用深度为标签的训练数据或无监督学习利用图像序列的几何一致性来实现。反向投影到3D空间一旦有了深度图就可以利用相机内参焦距、光学中心等将图像的每个像素转换为对应于真实世界3D空间中点的坐标。这个过程叫做反向投影。生成伪激光雷达点云通过反向投影过程2D图像像素和其预测深度结合形成一个点云类似于激光雷达传感器扫描环境所获得的点云。应用基于激光雷达的探测器得到的伪激光雷达点云可以用作输入以运行通常用于真实激光雷达点云的3D检测算法。因为点云数据格式相似所以基于激光雷达的检测器能够不加区分地处理伪激光雷达数据。通过这种方式伪激光雷达为没有真实激光雷达的情况下的3D物体检测提供了一种可行的替代方案。尽管伪激光雷达数据可能不如真实的激光雷达数据精确因为深度估计可能存在误差但这种方法在资源受限或成本敏感的应用中仍然非常有价值。它为研究人员提供了在不具备激光雷达硬件的情况下研究和开发3D感知能力的途径。 M3D-RPNMonocular 3D Region Proposal Network是一种3D目标检测框架用于从单眼相机图像生成3D边界框提议。这种方法特别适用于无需使用额外的深度传感器如激光雷达或立体相机系统仅利用单眼图像进行3D检测。它的主要特点是单级3D区域建议网络 M3D-RPN设计为单级网络这意味着它直接从输入图像生成3D候选框而不需要预先的候选区域选择步骤。两条并行路径全局路径该路径使用规则卷积运算提取全局特征这有助于捕捉图像中的上下文信息和整体结构。局部深度感知路径此路径使用H空间高度空间中的非共享unique per location卷积核来提取局部特征从而允许网络对每个空间位置有不同的深度响应以更好地理解物体的局部深度结构。这两个特征提取路径合并了全局和局部信息使得网络可以更好地估计物体的3D位置和尺寸。特别是局部深度感知路径能够让网络学习到与物体大小和深度相关的特征这对于从2D图像中恢复3D信息是非常重要的。 M3D-RPN的这种结构设计旨在改善单眼3D检测的性能因为它提供了一种机制来解决单眼图像中固有的深度歧义问题。通过将全局上下文信息与局部深度感知能力相结合M3D-RPN能够提升在单眼图像中进行3D目标检测的准确性。 FCOS3D是基于前沿的2D目标检测框架FCOSFully Convolutional One-Stage Object Detector的3D检测方法。这个模型是为了使单眼相机系统能够进行3D目标检测这在自动驾驶和机器人视觉领域特别有用。下面是对FCOS3D的一些关键点进行的总结扩展2D检测器 FCOS3D基于FCOS后者是一个先进的全卷积单阶段目标检测器特别注重速度和精度的平衡。FCOS通过消除先前阶段需要的候选区域选择步骤提高了检测过程的效率。回归分支的相似性 FCOS3D的回归分支借鉴了CenterNet一种以目标中心点为基础进行目标检测的方法的设计它集成了深度和框大小的预测。除了传统的2D框回归外FCOS3D在回归分支中添加了估计目标深度的任务和3D边界框的维度预测。 3D检测的挑战单目3D检测是具有挑战性的因为深度信息在2D图像中不是直接可用的需要通过模型预测或其他手段进行恢复。FCOS3D通过将深度估计和大小预测集成到原有的FCOS结构中能够对目标的3D位置和尺寸进行直接预测。翻转增强Flip Augmentation 翻转增强是一种数据增强策略它通过水平翻转图像来扩展训练数据集。这个简单的操作可以帮助模型学习到不依赖于图像水平方向的特征从而提高模型在处理新图片时的泛化能力。在训练期间应用翻转增强可以增加数据的多样性帮助模型更好地学习对称性质和降低过拟合的风险。测试时增强Test-Time Augmentation, TTA 测试时增强是在模型评估阶段应用的一种技术旨在提高预测的准确性。这通常涉及到对单个测试样本应用多种数据增强技术如翻转、裁剪、缩放等然后将模型在这些增强样本上的预测进行融合以得到最终的预测结果。测试时增强能够考虑到数据在变换下的不变性通常能提高模型的性能。适用性 FCOS3D适用于那些需要使用常规摄像机硬件进行3D物体检测的应用场景这种情况在资源受限或对成本敏感的环境中尤为重要。 FCOS3D展示了如何通过在单目图像中集成深度和尺寸估计将一个2D目标检测方法转化为3D检测方法。这对于开发先进的视觉感知系统来说是一个重要的进步因为它提供了一个比传统的3D检测方法通常依赖于成本较高的激光雷达或立体相机系统更经济的解决方案。激光雷达检测和分割激光雷达描述了具有3D空间中的一组点的周围环境这些点捕捉物体的几何信息。尽管缺乏颜色和纹理信息感知范围有限但基于激光雷达的方法比基于相机的方法在深度先验的基础上有很大的优势。检测由于激光雷达收集的数据被格式化为点云因此直接在点上构建神经网络是很自然的。基于点的方法对原始点云数据进行处理进行特征提取。VoteNet[120]基于Hough投票直接检测点云中的对象。PointR-CNN[148]是一种用于更精确3D检测的两阶段方法。在第一阶段通过将点云分割为前景点和背景点来生成3D建议然后在第二阶段对建议进行细化以获得最终的边界框。Part-A2[149]用部分感知和神经隔离网络扩展了PointRCNN。H3DNet[150]预测几何图元的混合集合然后通过定义对象和几何图元之间的距离函数将其转换为对象建议。投票方法的一个缺点是来自背景的异常投票会影响投票结果。Pointformer[121]设计了一个由局部变换器和全局变换器组成的变换器主干以有效地学习特征。BRNet[151]回溯投票中心的代表点并重新访问这些生成点周围的互补种子点。Group Free[152]不是对局部特征进行分组而是使用注意力机制从所有点获得对象的特征。RBGNet[153]提出了一种基于射线的特征分组模块用于学习对象形状的更好表示以增强聚类特征。3DSSD[154]首次提出了一种轻量级且有效的基于点的单级3D探测器。它利用三维欧氏距离和特征FPS作为采样策略。 3DSSD3D Single Stage Detector是一种针对点云数据设计的3D目标检测网络。以下是对其主要特点的理解总结轻量级3DSSD旨在减少模型的参数数量和计算需求这样它就能够以较少的资源消耗快速运行适用于对实时性要求较高的应用如自动驾驶汽车。单级探测器与传统的两级探测器如R-CNN系列不同单级探测器如SSD和YOLO系列在一个阶段内完成目标的分类和定位。这样做简化了训练和推理流程并通常能达到更快的推理速度。基于点的3DSSD不是处理整个3D点云而是基于点的操作这意味着它直接在点云上进行工作没有将数据转换为体素或图像的中间步骤。这有助于保留原始点云的精细结构。采样策略三维欧氏距离作为采样策略的一部分3DSSD使用三维空间中的欧氏距离来选择关键点这有助于减少处理的点的数量同时保持关键几何信息。特征FPSFarthest Point Sampling这是一种点云采样方法旨在选择分布最广泛的点这样可以代表整个点云的结构。通过特征FPS3DSSD能够选择具有最多信息量的点进行下一步处理。这种方法使得3DSSD可以更加高效地处理大规模的3D点云数据并在单个阶段内实现高效的目标检测。这对于那些需要在有限的计算资源下实现快速准确的3D对象检测的应用场景来说是非常有用的。分割除了三维物体检测外点云分割任务还提供了从点云数据中对整个场景的理解。一些工作侧重于室内点云分割。PointNet[104]通过结合MLP和最大池来直接从点云学习逐点特征从而提供了一个统一的算子。PointNet[105]进一步引入了集合抽象以形成用于更具代表性的特征提取的本地操作。SpiderCNN[155]提出了一种用于高效几何特征提取的新型卷积架构。DGCNN[156]提出Edge Conv学习结合了局部邻域信息。PointCNN[157]使用X变换来同时对输入特征进行加权和排列以便对变换后的特征进行后续卷积。KPConv[158]通过核点在欧几里得空间中存储卷积权重这些核点应用于邻域中接近的输入点。点变换器[159]是一种基于变换器的方法为点云设计自注意层。与室内感官分割不同室外分割模型是为更不平衡的感官而设计的分配RandLA-Net[160]使用随机点采样而不是复杂的点选择方法来实现高效和轻量级的体系结构。PolarNet[161]使用极性BEV表示来平衡网格上的点数。Cylinder3D[162]介绍了一种新的圆柱形分区体素化方法和不对称的三维进化网络以解决点分布不平衡的问题。AF2-S3Net[163]通过所提出的多分支注意特征融合模块和自适应特征选择模块将基于体素和基于点的学习方法融合到一个统一的框架中TornadoNet[164]将鸟瞰和距离视图功能与一个新颖的菱形上下文块相结合。AMVNet[165]聚合了单个基于投影的网络的特征。DRINet[166]设计了用于点和体素之间的双重表示迭代学习的架构。DRINet[167]通过增强点云的稀疏性和几何特性来扩展DRINet。稀疏点体素卷积SPVConv[83]使用基于辅助点的分支来预服务体素化和聚集下采样的高分辨率特征。在基于点和基于体素的分支之间的网络的不同阶段中执行信息交换。RPVNet[168]设计了一个具有体素视图、点视图和距离视图之间的多个相互信息交互的深度视觉网络。2D3DNet[169]使用标记的2D图像来生成用于网络监督的可信3D标签。2DPASS[170]通过将图像特征提取到点云网络中来增强点云表示学习。 RandLA-NetRandom Sampling-based Large-scale Point Cloud Network是一种针对大规模室外环境点云数据的分割模型。以下是对其核心特征的理解总结针对不平衡感知设计RandLA-Net 考虑到室外场景点云数据在地形和物体分布上的不平衡性因此它被设计来处理具有不同密度和尺寸的点云数据。随机点采样不同于采用复杂的采样策略如Farthest Point Sampling, FPS的网络RandLA-Net 使用一种随机点采样技术可以快速且有效地减少处理点的数量。高效和轻量级由于采用随机采样方法RandLA-Net 能够显著减少计算负担实现一个既高效又轻量级的模型。这对于需要在有限的计算资源下处理大量点云数据的应用尤其重要。适应大规模点云该模型特别适合于处理大规模的点云数据如那些从无人机或移动激光扫描仪收集的数据。通过使用随机采样RandLA-Net 旨在在不牺牲性能的情况下提供一种更加高效的点云处理方法。它避免了在预处理阶段使用复杂的数据简化或采样算法从而加快了模型的训练和推理速度并使其能够处理非常大的点云数据集。稀疏点体素卷积Sparse Point-Voxel Convolution, 简称 SPVConv是一种混合型神经网络结构用于高效地处理点云数据。它结合了点云和体素的表示方法以充分利用两者的优势。以下是对其主要概念的总结辅助点分支SPVConv 使用一个辅助点分支来提前处理高分辨率的特征这些特征将用于之后的体素化和特征聚合过程。体素化和聚合通过体素化点云数据被转换为体素三维像素的形式这样可以使用传统的卷积网络处理。聚合则是将多个点的特征合并到它们对应的体素中。下采样高分辨率的特征经过下采样这样可以减少计算量并提高网络处理的效率。信息交换在网络的不同阶段基于点的分支和基于体素的分支之间会进行信息交换。这种交换确保了两种类型的特征表示能够互相补充优化整体的特征学习。混合型网络SPVConv 是一个混合型网络结合了基于点的处理优势能够精确处理几何信息和基于体素的方法能够利用成熟的3D卷积操作。通过这种结构SPVConv 旨在同时处理大规模点云中的细节特征通过点分支和全局结构特征通过体素分支从而能够更加准确和有效地完成点云数据的分析任务如分类、检测和分割。 RPVNet 是一种深度视觉网络它针对点云数据的处理而设计。它特别关注于如何从多个视角即体素视图、点视图和距离视图捕获和利用信息以及这些不同视图间的信息如何交互以提高特征表示的丰富性和准确性。以下是对RPVNet关键概念的总结多视角处理RPVNet考虑点云数据从三个不同的视角来进行处理体素视图将点云数据转换为体素网格可以使用3D卷积网络进行特征学习。点视图直接处理原始点云数据保留了点的几何位置信息。距离视图关注点云数据中各点之间的距离信息可能用于捕捉点云的结构特性。相互信息交互RPVNet 不仅独立处理每个视图中的信息而且在网络内部还有机制允许这些视图之间交换信息。这种交互有助于增强特征表示因为来自一个视图的信息可以补充另一个视图的信息。提高模型的泛化能力因为多角度考虑同一数据可以减少过拟合到特定视图的风险。提升处理效率特别是在处理大规模点云数据时。深度网络结构RPVNet 使用深度网络结构来实现复杂的特征学习能够处理点云数据的不规则性并从中提取有用的信息以用于后续的任务如物体检测、语义分割等。通过这种设计RPVNet 目的在于提高点云处理任务中的精度和效率特别是在自动驾驶、机器人导航以及其他需要精确3D数据理解的应用中。 2D3DNet 是一个用于三维视觉感知的网络它利用标记的二维图像来产生用于网络训练监督的三维标签。这种方法的核心在于结合二维图像中的丰富视觉细节和三维世界的空间信息以此来提高网络对于三维数据的理解能力。以下是对2D3DNet的关键点总结数据融合2D3DNet通过融合2D图像数据和3D空间信息来增强网络的学习过程。生成3D标签由于直接在三维空间中标记数据通常更加困难和耗时2D3DNet使用已经标记好的2D图像来推导出相应的3D标签。这通常涉及到一些形式的投影或变换将2D图像数据映射到三维空间中。网络监督生成的3D标签为网络提供了监督信号。这意味着网络可以通过对标准的二维图像处理技术和三维数据处理技术的结合来进行训练而不是完全依赖于直接在三维空间中获得的标签。提高准确性这种方法允许2D3DNet利用二维图像中的细节信息来提高其对三维世界的感知准确性尤其是在那些2D图像和3D标签之间有直接对应关系的场景中。 2D3DNet的这种设计有助于解决在三维数据标注中常见的问题如成本高、效率低并且可以在保持较高准确性的同时加速训练过程。这在资源有限或需要快速迭代的应用场景中特别有价值。 2DPASS是一种方法它旨在通过将从二维图像中提取的特征融合到三维点云网络中来增强点云的表示能力。以下是对2DPASS核心概念的总结跨模态特征提取2DPASS桥接了2D视觉特征和3D点云数据的差距通过提取图像的二维特征并将这些特征传递到点云处理网络中。表示学习增强通过此方法点云的表示得到了增强因为它不仅仅包含了从原始3D数据中直接提取的信息还包括了丰富的二维图像数据所提供的上下文和纹理信息。网络融合2DPASS涉及将二维图像特征与三维点云特征在网络中进行有效融合这可能涉及到对齐、融合策略和网络架构的创新设计。增强点云网络的能力通过这种融合点云网络能够更好地学习和识别复杂的模式和结构这对于许多3D视觉任务来说是非常有益的例如物体识别、分类和三维重建。 2DPASS方法的优势在于能够充分利用可用的二维图像数据来改善三维点云处理的效果特别是在图像和点云之间有清晰对应关系的场合。这样的方法通常可以提升系统在三维空间感知和理解任务中的性能。传感器融合现代自动驾驶汽车配备了不同的传感器如摄像头、激光雷达和雷达。每个传感器都有优点和缺点。**相机数据包含密集的颜色和纹理信息但无法捕捉深度信息。激光雷达提供了准确的深度和结构信息但受到有限的范围和稀疏性的影响。雷达比激光雷达更稀疏但传感范围更长可以捕捉运动物体的信息。**理想情况下传感器融合将推动感知系统的性能上限但如何融合来自不同模态的数据是一个具有挑战性的问题。 MVX-Net[171]将体素区域投影到图像并应用ROI池来提取图像特征。**MMF[172]和ContFuse[173]**将每个BEV特征的激光雷达点投影到图像特征图并应用连续卷积来融合特征。PointAugmenting[124]通过将所有激光雷达点投影到图像特征来构建图像特征点云。融合特征是通过将来自LiDAR特征点云和3D主干之后的图像特征点云的两个BEV特征级联而获得的。AutoAlignV2[78]在将激光雷达点到图像投影为参考点之后利用可变形的姿态[138]来提取具有激光雷达特征的图像特征。DeepFusion[77]通过使用体素特征作为查询使用图像特征作为关键字和值应用transformer[99]进行融合。CenterFusion[174]使用截头体关联将雷达特征和图像特征与初步3D框融合。FUTR3D[175]将3D参考点投影到来自不同模态的特征图并使用可变形注意力融合特征。TransFusion[76]使用空间调制的交叉注意力来融合图像特征和激光雷达BEV特征以涉及局部感应偏差。DeepInteraction[176]保留了模态特定的表示而不是单一的混合表示来维护模态特定的信息。早期的融合方法除了在神经网络中间融合来自不同模态的特征外还借助图像信息对激光雷达输入进行调整。PointPainting[73]根据投影关系将语义分割中的一个热门标签连接到点特征。然后将增强的点特征馈送到任何仅LiDAR的3D检测器。F-PointNet[177]利用2D检测器提取每个2D边界框的视锥体内的点云。然后每个具有相应点云的视锥体被馈送到仅激光雷达的3D检测器。后期融合方法在生成对象建议后对多模态信息进行融合。MV3D[110]采用BEV、前视图激光雷达和图像作为输入。在从BEV获得3D提案并将3D提案投影到其他模态之后来自同一3D提案的不同模态的特征被融合以细化提案。AVOD[178]改进了具有高分辨率图像特征的MV3D[110]。CLOC[179]利用小网络对2D和3D检测器的预测结果进行运算以调整具有非零IoU的成对2D和3D的置信度 MVX-Net是一种多模态3D目标检测网络它结合了图像和点云数据来提升检测性能。以下是对MVX-Net核心概念的理解多模态融合MVX-Net利用来自不同传感器的数据即二维图像和三维点云通常是激光雷达扫描数据。这样的多模态融合使得网络能够同时利用图像中的纹理、颜色信息和点云中的几何信息。体素化与投影MVX-Net首先将点云数据体素化即将点云划分成规则的三维网格体素以此简化点云数据的处理和特征学习。然后它将这些体素区域投影到相关联的二维图像上。区域兴趣池化ROI池化在将体素投影到图像平面上之后MVX-Net使用区域兴趣池化ROI Pooling技术从图像中提取特征。ROI池化允许网络专注于图像中与体素对应的区域并从这些区域提取有用的特征。特征提取从图像中提取的特征与体素特征结合这样每个体素不仅包含从点云数据中得到的三维空间信息也包含了相应图像区域的二维视觉信息。目标检测结合了来自图像和点云的信息后MVX-Net可以更准确地进行3D目标检测因为多模态数据提供了比单一数据源更全面的信息。 MVX-Net的优势在于它通过结合两种类型的传感器数据从而在3D目标检测任务中实现了更好的性能和更强的鲁棒性。这种方法特别适用于自动驾驶汽车和机器人视觉系统其中对环境的精确和可靠理解至关重要。 MMFMulti-Modal Fusion和ContFuse是两种用于增强自动驾驶车辆的感知能力的多模态融合方法。它们通过结合图像通常来自相机和点云数据通常来自激光雷达来提高目标检测和分割的准确性。以下是对它们核心概念的解释多模态数据处理这些方法的关键在于它们能够处理和结合不同类型的传感器数据。激光雷达提供准确的深度信息而相机提供丰富的颜色和纹理信息。鸟瞰图BEV特征MMF和ContFuse将激光雷达数据转换为鸟瞰图Bird’s Eye View表示。这是一个从顶部视角查看车辆周围环境的二维平面图它简化了三维空间中物体的检测和追踪。点到图像的投影从BEV特征表示中得到的激光雷达点被投影到相应的图像特征图上。这样每个点都与相机视图中的一个特定像素相关联。连续卷积ContFuse利用连续卷积来融合不同传感器的特征。连续卷积是一种特殊类型的卷积能够在不同分辨率和尺度的特征图之间进行平滑的融合。特征融合通过上述步骤来自相机的图像特征和来自激光雷达的空间特征被有效结合。这种融合允许网络利用两种传感器的互补优势例如图像中的细节信息和点云的空间结构信息。改进的检测性能通过结合图像和激光雷达信息MMF和ContFuse可以更好地处理复杂的环境例如在不同光照条件下或在遮挡情况下检测和分类物体。 MMF和ContFuse的优点在于它们提高了目标检测的精度尤其是在视觉信息可能不足以提供可靠结果的场景中。这使它们成为了自动驾驶汽车和其他需要精确环境理解的应用的重要工具。 PointAugmenting 是一种点云增强技术它利用激光雷达和相机数据来提升点云的特征表示。其核心思想是通过激光雷达点到图像的映射来丰富点云数据。以下是该技术的详细解释数据融合PointAugmenting 结合了两种类型的传感器数据即三维空间中的激光雷达点云和二维图像。这两者各自有优势激光雷达精确地捕捉距离信息而相机提供丰富的纹理和颜色信息。点投影技术实现时首先将每个激光雷达点投影到相应的相机图像上。这样每个激光雷达点都与图像中的一个像素相关联。图像特征点云通过投影每个激光雷达点不仅包含其在空间中的位置x, y, z 坐标还附带了图像的特征如颜色和纹理。因此创建了一个“图像特征点云”在其中每个点都丰富了来自相机图像的信息。增强的点云表示得益于与图像数据的结合增强后的点云表示具有更为丰富的信息能够提供关于物体的额外细节这有助于改进后续的处理步骤如物体检测、分类和跟踪。提升算法性能这种增强的点云可以提供更为详尽的环境描述使得算法能够在处理视觉任务时表现出更高的准确性特别是在光照变化大或视觉遮挡情况下。 PointAugmenting 是一种有效的多模态数据增强策略它特别适用于自动驾驶汽车和机器人视觉系统因为它可以大幅度提高三维感知的准确度和鲁棒性。通过将激光雷达点云与图像特征结合可以让系统更好地理解和解释它所观察到的场景。融合特征的过程指的是将不同来源的数据在这个情况下是来自激光雷达LiDAR的特征点云和来自图像的特征点云结合在一起以便提供一个更全面的数据集这在执行任务如物体检测和分类时尤其有用。以下是这一过程的细节特征点云首先从激光雷达LiDAR和相机获取原始数据。激光雷达生成三维的空间点云每个点包含其在空间中的位置信息相机则提供二维的图像数据。 3D主干网络然后这些数据被分别输入到两个不同的3D主干网络通常是深度学习模型这些网络负责提取有用的特征。激光雷达点云输入到一个专门处理三维数据的网络中而图像数据则输入到另一个处理二维数据的网络中。特征级联网络提取的特征分别表示了来自两个不同传感器的环境信息。之后这些特征在鸟瞰视图BEVBird’s Eye View的表示中被结合。具体来说是通过级联concatenating操作即将两个特征按顺序拼接在一起形成一个更长的特征向量。融合BEV特征这个长特征向量包含了从两个不同视角看到的信息——激光雷达提供的精确的深度信息和图像提供的详细的外观信息。通过这种融合生成了一个包含丰富环境描述的综合特征它可以用来进行更准确的物体检测和分类。提升算法性能融合来自多个传感器的特征可以改善系统的性能因为它利用了每种传感器的独特优势提供了更全面的环境感知能力。这对于自动驾驶汽车和机器人视觉系统等高级应用至关重要。总之通过将激光雷达的三维特征与图像的二维特征结合可以显著提高算法在解释复杂环境和检测物体方面的能力。 AutoAlignV2 的工作原理基于激光雷达LiDAR数据与图像数据的对齐。该方法涉及几个关键步骤可以总结如下激光雷达点投影这个步骤首先将激光雷达的三维点云数据投影到二维图像上。通过这种方式每个激光雷达点都可以在图像上找到对应的位置这一过程通常利用相机的内参和外参矩阵来完成。参考点投影后的激光雷达点作为参考点它们在图像上标记了三维空间中物体的精确位置。可变形姿态这里的可变形姿态很可能是指一种特殊的网络层即可变形卷积层deformable convolutions。可变形卷积层可以适应物体的几何形状提取更精确的特征。它允许网络在标准卷积的基础上学习偏移量从而在图像特征的提取过程中更好地考虑物体的形状和位置。提取图像特征通过使用可变形卷积层网络可以根据激光雷达参考点的准确位置提取与激光雷达特征相匹配的图像特征。特征融合最终这些图像特征已经通过可变形卷积层调整以匹配激光雷达特征的形状和位置可以与激光雷达点云数据的特征进行融合。这种融合使得网络能够综合考虑激光雷达的空间信息和图像的视觉信息。通过这种方法AutoAlignV2 可以生成包含详尽地理空间定位信息和视觉纹理信息的融合特征为自动驾驶车辆或其他机器视觉系统提供了强大的环境感知能力。 B部分三维视觉初探图7从透视图到鸟瞰图的视图转换。XwYwZwXcYcZc表示世界坐标和相机坐标XiYi、UV表示图像坐标和像素坐标。一根立柱从纯电动汽车平面上升起。P、 P’分别对应于来自柱的3D点和来自相机视图的投影2D点。给定P的世界坐标和相机的内在和外在参数P的像素坐标’可以获得。显式BEV特征构造通常需要基于3D-to-2D投影对局部图像视图特征进行索引。图7描述了纯电动汽车成型器[4]中的视图转换。将支柱从BEV平面中抬起并将支柱内部的3D点投影到相机视图中。投影过程涉及世界、相机、图像和像素坐标系之间的转换从世界坐标到相机坐标的变换是一种刚性变换只需要平移和旋转。设Pw[xwywzw1]Pc [xcyczc1]分别是3D点P在世界坐标和相机坐标中的同构表示。它们的关系可以描述如下 P c [ x c y c z c 1 ] [ R T 0 T 1 ] [ x w y w z w 1 ] , ( 12 ) P_c\begin{bmatrix}x_c\\y_c\\z_c\\1\end{bmatrix}\begin{bmatrix}\boldsymbol{R}\boldsymbol{T}\\\boldsymbol{0}^T1\end{bmatrix}\begin{bmatrix}x_w\\y_w\\z_w\\1\end{bmatrix},\quad(12) Pc xcyczc1 [R0TT1] xwywzw1 ,(12) 其中R、T分别表示旋转矩阵和平移矩阵。引入图像坐标系来描述摄像机坐标系对图像的透视投影。当不考虑相机失真时3D点与其在图像位置上的投影之间的关系可以简化为针孔模型。图像坐标xiyi可以通过等式计算。13 { x i f ⋅ x c z c y i f ⋅ y c z c ( 13 ) \begin{cases}x_if\cdot\dfrac{x_c}{z_c}\\y_if\cdot\dfrac{y_c}{z_c}\end{cases}\quad(13) ⎩ ⎨ ⎧xif⋅zcxcyif⋅zcyc(13) 其中f表示相机的焦距。图像坐标系和像素坐标系之间存在平移和缩放变换关系。让我们表示α和β表示到横坐标和纵坐标的比例因子cxcy表示到坐标系原点的平移值。像素坐标uv在数学上由等式表示。14 { u α x C x v β y C y ( 14 ) \begin{cases}u\alpha xC_x\\v\beta yC_y\end{cases}\quad(14) {uαxCxvβyCy(14) 使用等式。13和等式。14设置fxαffyβf我们可以导出方程。15 z c [ u v 1 ] [ f x 0 c x 0 f y c y 0 0 1 ] [ x c y c z c ] . ( 15 ) z_c\begin{bmatrix}u\\v\\1\end{bmatrix}\begin{bmatrix}f_x0c_x\\0f_yc_y\\001\end{bmatrix}\begin{bmatrix}x_c\\y_c\\z_c\end{bmatrix}.\quad(15) zc uv1 fx000fy0cxcy1 xcyczc .(15) 总之世界坐标系中的三维点P与其投影P之间的关系’在像素坐标系中可以描述为 z c [ u v 1 ] [ f x 0 c x 0 f y c y 0 0 1 ] [ R T ] [ x w y w z w 1 ] , (16) K [ R T ] [ x w y w z w 1 ] T . \begin{gathered} z_c\begin{bmatrix}u\\v\\1\end{bmatrix} \begin{bmatrix}f_x0c_x\\0f_yc_y\\001\end{bmatrix}\begin{bmatrix}\boldsymbol{R}\boldsymbol{T}\end{bmatrix}\begin{bmatrix}x_w\\y_w\\z_w\\1\end{bmatrix}, \text{(16)} \\ \boldsymbol{K}\begin{bmatrix}\boldsymbol{R}\boldsymbol{T}\end{bmatrix}\begin{bmatrix}x_wy_wz_w1\end{bmatrix}^T. \end{gathered} zc uv1 fx000fy0cxcy1 [RT] xwywzw1 ,(16)K[RT][xwywzw1]T. 矩阵 K [ f x 0 c x 0 f y c y 0 0 1 ] \boldsymbol{K}\begin{bmatrix}f_x0c_x\\0f_yc_y\\001\end{bmatrix} K fx000fy0cxcy1 ,被称为相机内部矩阵R T被称为相机外部。利用三维点的世界坐标、相机的内在和外在可以通过上述变换获得图像视图上的投影。 C部分数据集和评估指标 Argoverse数据集 Argoverse[1224]是第一个使用高清地图的自动驾驶数据集。Argoverse的传感器组包含2个激光雷达、7个环形摄像头和两个立体摄像头。早期版本称为Argoverse 1[24]支持两项任务3D跟踪和运动预测。新的Argoverse 2[12]支持更多的任务3D对象检测、无监督学习、运动预测和变化的地图感知这更具多样性和挑战性。评估指标PKL 规划KL散度PKL是CVPR 202[180]中提出的一种新的神经规划度量它基于规划器轨迹的KL散度和地面实况的路线。规划器的轨迹是通过给出经过训练的检测器的检测结果来生成的。PKL度量总是非负的。PKL分数越小意味着检测性能越好。 LET-3D-APL的定位亲和力定义为 •如果没有纵向定位误差则定位亲和度1.0。 •如果纵向定位误差等于或超过最大纵向定位误差则定位亲和度0.0。 •定位亲和力在0.0和1.0之间进行线性插值。规划KL散度PKL和LET-3D-APL都是评估自动驾驶系统中某些功能的性能的指标。下面是对这两个概念的理解和解释规划KL散度PKL PKL是在自动驾驶领域中评估预测轨迹与真实轨迹之间差异的一个新度量。这里的“规划器轨迹”是指基于自动驾驶系统中检测器检测结果的预测路径而“地面实况的路线”是指真实世界中车辆应该行驶的路径。 KL散度它是一个统计量用来衡量两个概率分布之间的差异。在这种情况下它被用来衡量预测轨迹的概率分布与真实轨迹概率分布之间的差异。检测性能PKL得分越低意味着预测轨迹与实际轨迹越接近即检测器性能越好。因为如果检测器能准确地识别出环境中的物体那么基于这些检测结果规划出来的路径就会更接近真实世界中的最佳路径。 LET-3D-APL定位亲和力 LET-3D-APL是衡量自动驾驶系统中3D对象检测的定位准确性的一个指标。纵向定位误差是指在车辆行驶方向上检测到的物体的位置与实际位置之间的差距。定位亲和度这是一个0到1之间的分数用来表示定位的准确性。如果纵向定位误差为0即没有误差则定位亲和度为1.0表示完美的定位。如果纵向定位误差等于或超过了一个预设的最大容忍误差定位亲和度就是0.0表示定位失败。介于两者之间的误差将导致定位亲和度在0.0和1.0之间线性变化。总结来说PKL是用来评估自动驾驶系统中轨迹规划的准确性的指标而LET-3D-APL是评估3D对象检测的定位精度的指标。这两个度量都是用来确保自动驾驶系统的安全性和可靠性的关键性能指标。 D部分纯电动汽车工业视图在表6中我们详细描述了不同公司纯电动汽车架构中的输入和网络结构。表6纯电动汽车架构的详细输入和网络选项。正如我们所观察到的模态和特征提取器是不同的变压器和ViDAR是工业上最常见的纯电动汽车改造选择。“-”表示未知信息 E部分 BEVFormer中的三维检测头这个技巧我们主要参考BEV相机的检测任务。在BEVFormer中采用了三个检测头。相应地这些头部涵盖了三类检测器设计包括无锚、基于锚和基于中心。我们选择各种类型的探测器头尽可能在设计上有所差异以便充分利用探测框架在不同场景中的潜在能力。头部的多样性有助于最终的合奏结果。原始BEVFormer使用改进的可变形DETR解码器作为其3D检测器[41 38 182]其可以在没有NMS的情况下端到端地检测3D边界框。对于此水头我们遵循原始设计但使用平滑L1损失来替换原始L1损失。我们的大多数技巧基线实验都是在DETR解码器上实现的如表4 ID 1-15所述。 BEVFormer采用FreeAnchor[183]和CenterPoint[67]作为替代3D检测器其中FreeAnchor是一种基于锚的检测器可以自动学习锚的匹配CenterPoint是一种无锚3D探测器。表4 ID 16-20中的消融研究表明这些头部在各种设置下表现不同。这对于合奏部分是重要的因为预发音头在推理过程中提供了各种分布。有关集成技术的更多详细信息请参见第E.3.1节。值得注意的是3D解码器还远没有得到很好的开发因为高效的查询设计[148 185]使其在2D感知中蓬勃发展。如何将这些成功转移到3D感知领域将是这个社区的下一步。在自动驾驶和3D目标检测领域BEVFormer 是一种用于3D对象检测的方法它可以集成不同类型的检测器来提高性能。这里提到的 FreeAnchor 和 CenterPoint 是两种不同的3D检测器它们与BEVFormer结合使用来探索它们在不同设置下的表现 FreeAnchor 基于锚的检测器这种类型的检测器预定义了一组锚anchor即预设的框这些框有不同的形状和大小用来作为检测对象候选。自动学习锚的匹配FreeAnchor的特点是它可以自动学习锚点与真实边界框之间的最佳匹配这使得它能够更灵活地适应不同尺寸和形状的对象。 CenterPoint 无锚3D探测器与传统的基于锚的检测器不同无锚检测器不依赖于预定义的锚点而是直接在特征图上预测对象的中心点然后围绕这些中心点建立边界框。适用于点云数据CenterPoint主要针对的是处理来自LiDAR传感器的点云数据它在检测精度和速度方面表现出色。在表4的ID 16-20中提到的消融研究可能是指研究者们进行的一系列实验以分析FreeAnchor和CenterPoint这两种检测器头在BEVFormer框架中的表现以及它们在不同实验条件和参数设置下的性能变化。这种类型的实验有助于了解哪种检测器头在特定场景中更有效从而为实际应用中的模型选择提供指导。在最终的系统集成中合奏部分指的是使用这些不同的检测器头进行组合利用它们在推理过程中提供的各种分布来提高整体的检测性能。每个检测器可能会在特定类型的物体或情况下表现更好因此组合它们可以增强系统的鲁棒性从而在更广泛的场景和条件下实现更准确的检测结果。测试时间增强TTA 纯电动汽车摄像头检测2D任务的常见测试时间增强包括多尺度和翻转测试也被检查以提高3D情况下的准确性。在BEVFormer中这一部分以利用多尺度和翻转等标准数据增强的形式进行了简单的探索。多尺度强化的程度与训练相同从0.75到1.25不等。相关实验如表4 ID 13所示。激光雷达分割在推理过程中使用了多个TTA包括漫游、缩放和翻转。对于缩放所有模型的缩放因子都设置为{0.90、0.95、1.00、1.05、1.10}因为较大或较小的缩放因子对模型性能有害。翻转与训练阶段相同即沿X轴、Y轴以及X和Y轴。旋转角度设置为-π2.0π2.π}。可以选择更细粒度的缩放因子或旋转角度但考虑到计算开销和TTA组合策略粗粒度参数是优选的。与细粒度的扩充参数相比TTA的组合将进一步提高模型性能。然而由于TTA的多路复用这是非常耗时的。采用了具有20个推理时间的组合模型相关TTA。可以进行组合策略的网格搜索。根据经验缩放和翻转相结合是优选的。可以获得1.5 mIoU的明显改善见表5 ID 4。在推理过程中使用的多个TTATest-Time Augmentation如漫游、缩放和翻转是一种提高深度学习模型性能的技术。TTA涉及在测试时对输入数据进行一系列变换以模拟训练时的数据增强并且增加模型对输入变化的鲁棒性。这里提到的TTA技术具体包括漫游可能指平移或旋转在图像或3D点云中可以通过平移或旋转对象来模拟不同的观察视角。缩放通过改变对象的尺寸可以模拟对象距离摄像头/传感器的远近变化。翻转在图像中可以沿着垂直或水平轴翻转以模拟镜像视角的变化。在推理过程中应用TTA的目的是通过多角度和尺度来考察模型对同一个对象的识别能力以此提升模型的泛化能力。对于每个变换后的输入模型会产生一组检测结果这些结果可以通过投票或平均等方法合成以提高最终预测的精确度和可靠性。例如在自动驾驶车辆的3D对象检测中由于车辆在运行过程中可能会遇到各种大小、角度和位置的对象因此使用TTA可以帮助检测系统更准确地识别和定位这些对象无论它们如何在传感器的视野中出现。集成纯电动汽车摄像头检测集成技术通常在待测试的数据集之间有所不同2D/3D物体检测中使用的一般实践可以应用于BEV感知但需要进行一些修改。以BEVFormer为例在集成阶段我们介绍了加权盒融合WBF的改进版本[186]。受Adj NMS[187]的启发在原始WBF之后采用矩阵NMS[188]来过滤冗余盒。为了生成多尺度和翻转结果采用了两阶段集成策略。在第一阶段我们利用改进的WBF来集成来自多尺度管道的预测以生成每个模型的翻转和非翻转结果。表7列出了专家模型性能的相关实验。在第二阶段收集所有专家模型的结果。改进后的WBF用于获得最终结果。这种两阶段集成策略将模型性能提高了0.7 LET mAPL如表8所示。表8:BEV摄像头检测轨迹。BEVFormer中val集的集合策略。FrA自由锚头[183]。 DeD可变形DETR头[138]。CeP中心点封头[67]。“20个模型”表示20种不同设置下的专家模型。考虑到每个模型中性能的多样性我们认为参数调整要复杂得多。因此采用进化算法来搜索WBF参数和模型权重。我们利用NNI[189]中的进化来自动搜索参数其中种群大小为100。搜索过程基于3000张验证图像的性能不同的类被分别搜索。 LiDAR分割作为一项逐点分类任务分割的任务是从平均的方式。具体来说对不同模型预测的概率进行简单的求和然后用argmax运算确定每个点的分类结果。为了提高我们模型的多样性我们使用一种称为导出模型的不同数据重采样策略来训练模型。根据关于场景和天气条件的上下文信息在基于所有数据训练的模型上对多个特定于上下文的模型进行微调。如表5 ID 8和9所示模型集成和专家模型的使用分别带来0.7和0.3 mIoU的改进。在模型特定的TTA之后模型的概率以分层的方式进行聚合。考虑到模型的多样性模型集成分为两个阶段进行处理。在第一阶段**用不同的权重对齐次模型例如具有不同超参数的模型的概率进行平均。然后在第二阶段中用不同的权重对异构模型即具有不同结构的模型的概率进行平均。**NNI[189]中最大试验次数为160的退火算法用于在两个阶段搜索验证集上的权重。在这段描述中我们看到一个关于点云分割任务的方法。分割任务在此上下文中指的是确定每个点在3D空间中所属的类别如车辆、行人、建筑物等。这通常被视为逐点分类任务其中每个点都要被分配一个类别标签。以下是详细的步骤和概念解释逐点分类在点云分割中模型需要为每个点预测一个类别标签。这类似于像素级别的分类任务但在3D点云数据中进行。平均方式指的是通过整合不同模型对同一数据点的预测概率然后选择最高概率的类别作为最终的分类结果。通常这涉及到对每个类别的概率分布进行平均并使用argmax函数来选出平均后概率最高的类别。简单求和这里描述的简单求和可能是指将来自不同模型的概率预测对于每个类别简单相加以此作为进行分类决策的依据。 argmax运算这是一个常用的操作用于从概率分布中选择最高概率对应的类别作为预测结果。模型多样性和数据重采样为了提高模型的鲁棒性使用了不同的数据重采样策略来训练多个模型。这样做可以增加模型的多样性因为每个模型可能对数据的不同方面有更好的学习和预测。导出模型可能是指一种特定的模型它是基于某个更通用模型的变体并针对特定的数据子集进行了优化。专家模型是一组特定于上下文的模型它们被微调以在特定的场景和天气条件下表现更好。模型集成是合并多个模型的预测以提高性能的过程。模型集成可以通过减少过拟合和提高泛化能力来提高预测的准确性。 mIoU 即平均交并比Mean Intersection over Union是评估分割任务中模型性能的常用指标它计算了预测的类别与真实标签之间的重叠程度。根据表5 ID 8和9通过模型集成和使用专家模型分别带来了0.7和0.3的mIoU提升表明结合不同模型的预测和针对特定上下文优化模型的策略能有效提升分割性能。在这里描述的是一个两阶段的模型集成过程其中涉及到了“测试时间增强”TTA的应用以及模型概率的分层聚合策略。以下是关键点的解释测试时间增强TTA TTA是一种常见的技术用于提高模型在测试时的性能。它通常涉及到对输入数据应用某种形式的增强如旋转、缩放、翻转等然后将模型的预测结果进行合并。TTA可以帮助模型应对在训练数据中未见过的小变化。分层的概率聚合这是一种特定的集成方法其中不同模型的预测概率通过分层的方式进行合并。在第一层类似的模型例如那些只是在超参数上有差异的模型的预测概率被平均在一起每个模型可以有不同的权重。这个步骤可能是为了抵消单一模型超参数选择的不确定性。用不同权重对齐次模型的概率进行平均这意味着在第一阶段的集成中相似模型的概率不是简单的算术平均而是根据每个模型的重要性或性能给予不同的权重。异构模型的概率聚合在第二个阶段不同架构的模型可能涉及不同的特征表示或学习策略的预测结果将被合并这可以引入结构上的多样性并可能进一步提升模型的泛化能力。退火算法和NNI 退火算法是一种优化算法通常用于在一个较大的搜索空间内找到一个全局最优解它是受物理退火过程启发的。NNINeural Network Intelligence是一个自动化的机器学习AutoML工具它支持不同种类的优化算法来调整模型和超参数。在这个上下文中退火算法被用于寻找在验证集上表现最佳的权重组合这些权重用于在两个阶段的模型集成中对模型的概率预测进行加权平均。通过这种方式集成不仅考虑了不同模型的性能而且还利用了优化技术来调整权重以便在最终的预测中以最优的方式结合这些模型的优势。后处理纯电动汽车摄像头检测虽然纯电动汽车检测消除了多摄像头物体级融合的负担但我们观察到了可以从进一步的后处理中受益的显著事实。**根据BEV变换的性质重复的特征可能会在沿着光线到相机中心的不同BEV位置上采样。**这导致在一个前景对象上的重复错误检测其中每个错误检测具有不同的深度但可以全部投影回图像空间中的相同前景对象。为了缓解这个问题利用2D检测结果对3D检测结果进行重复去除是有益的其中2D边界框和3D边界框是二分匹配的。在我们的实验中当使用真实的2D边界框作为滤波器时可以提高3D检测性能。然而如第4.3.1节所述当使用经过辅助监督训练的2D检测头的预测2D边界框时我们观察到几乎无法获得改进。这可能是由于2D检测的训练不足造成的。因此需要对联合2D/3D冗余检测去除进行进一步的研究。 NMS的应用取决于检测头设计是否表现出无NMS的特性。通常对于一对多分配NMS是必要的。尤其是用新提出的LET-IoU[61]替换NMS中常用的IoU度量以去除冗余结果可以改善检测结果。改进情况见表4 ID 12、17和21。这种设计更适合纯电动汽车相机专用的3D探测器。由于两个相互冗余的结果的3D IoU在数值上很小这通常导致无法去除假阳性结果。对于LET-IoU冗余结果往往会困扰更高的IoU从而在很大程度上被去除。这段文字讲述的是鸟瞰图BEV, Bird’s Eye View变换在处理3D对象检测时可能出现的一个问题。让我来解释这个问题在自动驾驶系统和机器人视觉等领域BEV变换是一种常用的技术它将来自车辆周围环境的数据通常是通过相机或激光雷达LiDAR传感器获取转换成鸟瞰图。这个转换通常是将3D空间中的点投影到一个2D平面上这个平面模拟了从上方查看场景的视角。BEV变换使得车辆的导航和障碍物检测更加直观。然而由于这种转换的性质特别是当使用摄像头图像数据时可能会出现一个问题即同一个3D点属于某个对象如车辆在不同的深度上被采样到BEV中的不同位置。这是因为在相机图像中一条从3D世界点发出并穿过相机中心的射线在BEV中对应着一系列可能的位置这取决于该点的具体深度。举个例子想象一辆汽车在相机前方由于BEV变换的性质这辆汽车的同一个部分可能会被映射到BEV上不同的位置每个位置对应着该部分的不同假设深度。如果检测算法没有正确处理这种深度的歧义就会在BEV中产生多个重复的错误检测这些检测代表的是同一个实际对象在不同的深度假设下的多个副本。这段话的意思是在3D对象检测的应用中比如自动驾驶或者机器视觉系统中利用2D图像上的检测结果来优化3D检测结果是有帮助的。具体来说它提到了一种方法这种方法是通过在2D和3D边界框之间进行二分匹配从而对3D检测结果中的潜在重复进行去除。这里的“二分匹配”通常指的是一种算法用于找到最佳的匹配对使得每个2D边界框与一个3D边界框相对应反之亦然这样每个2D检测只会被用来过滤一个3D检测。在实验中研究人员发现如果使用准确的2D检测框真实的2D边界框来过滤3D检测结果可以提高3D检测的准确性。这意味着当我们确定一个物体在2D图像上的位置很可能是准确的时我们可以用这个信息来验证和改进3D世界中该物体的位置估计。例如在自动驾驶的场景中车辆可能会使用相机来捕捉2D图像并用激光雷达来获取3D点云数据。通过在这两种数据之间进行匹配系统可以更准确地识别和定位道路上的其他车辆和障碍物。这种方法减少了误报错误的检测和漏报未检测到的物体从而提高了整体的检测性能。激光雷达分割通过分析混淆矩阵我们观察到大多数错误分类发生在相似的类别中。因此语义类可以被划分为多个组在这些组中与组外的类相比类被严重混淆。后处理技术分别对前景语义组进行处理并在表5 ID 10中提高了0.9mIoU。现有的分割方法执行逐点分类而不考虑单个对象的一致性。例如一些标记为前景对象的点将被预测为背景。基于上述分层分类进行对象级细化以进一步提高对象级完整性。通过在预测的基础上屏蔽同一语义组中的点并进行欧几里得聚类可以将点分组到实例中。然后通过多数投票来确定每个实例的预测。此外对于每个对象通过轻量级分类网络进行对象级分类的证明以确定对象的最终预测类别。当获得对象级预测时通过跟踪进一步细化预测的时间一致性。执行跟踪以从所有先前帧中找到对应的对象。通过考虑所有先前的预测来细化当前帧中对象的预测类别。分析混淆矩阵可以帮助我们理解一个分类模型的性能特别是它在预测不同类别时的精确性。混淆矩阵是一个方阵其大小为类别的数量每一行代表实际的类别每一列代表预测的类别。一个理想的混淆矩阵主对角线的值将是最大的因为这意味着所有的预测都是正确的。在这种情况下通过分析混淆矩阵观察到错误的分类主要发生在相似类别之间。例如在一个图像中树和灌木可能因为它们的外观相似而经常被相互误分类。根据这些信息可以将语义类分为几个组每个组包含经常被相互混淆的类别。后处理技术是指在模型输出结果之后应用的一系列技术可以进一步提高分类的准确性。在这种情况下后处理技术被用来分别处理每个前景语义组。这意味着对于每个组将有专门的步骤来处理组内的类别以减少这些相似类别之间的混淆。例如可能会调整类别之间的判定阈值或者使用特定于上下文的规则来帮助区分相似的类别。这种方法的目标是减少组内的误分类同时不会影响到组外的类别。 F部分挑战和未来趋势尽管纯电动汽车在自动驾驶中的感知算法表示很受欢迎但社区仍面临许多重大挑战需要解决。在本节中我们列出了一些未来的研究方向。深度估计正如主要论文中所讨论的基于视觉的BEV感知的核心问题在于准确的深度估计因为任务是在3D环境中执行的。当前重新求解深度预测的方法是a伪激光雷达生成b 将特征从2D对应提升到3D对应c 激光雷达相机蒸馏以及d立体视差或时间运动。这些方向中的任何一个或组合都是有希望的。为了保证更好的性能大量的监督数据也至关重要[80]。另一个有趣而重要的方向是**如何在训练期间利用激光雷达信息例如作为深度监督而在参考期间只提供视觉输入。**这对原始设备制造商来说非常有利我们有来自多个来源的大量训练数据但出于部署考虑运输产品上只有摄像头输入。迄今为止大多数聚变方法可分为早期聚变、中期聚变或晚期聚变组之一这取决于聚变模块在管道中的位置。您提到的这段总结集中讨论了基于视觉的鸟瞰图BEV感知在3D环境中的关键挑战即准确的深度估计。深度估计是将2D图像数据转换成3D信息的过程这对于自动驾驶系统中的物体检测、定位和导航至关重要。以下是对提到的深度估计方法的简要总结伪激光雷达生成Pseudo-LiDAR Generation: 这种方法通过视觉数据模仿激光雷达产生的3D点云数据。使用立体图像或单目深度估计技术生成深度图然后将其转换为3D空间中的点云表示类似于激光雷达的输出。将特征从2D提升到3DFeature Lifting from 2D to 3D: 在这种方法中2D图像中提取的特征通过某种形式的深度预测被映射或“提升”到3D空间。这通常涉及到深度学习网络来预测每个像素点的深度值。激光雷达相机蒸馏LiDAR-Camera Distillation: 这种方法涉及使用激光雷达数据作为高精度的监督信息来指导或“蒸馏”相机感知系统的训练。通过这种方式摄像机系统可以学习模仿激光雷达的深度感知能力。立体视差或运动视差Stereo or Motion Parallax: 这些传统的计算机视觉技术通过分析成对的立体图像之间的差异立体视差或者通过分析图像序列中物体随时间的相对运动运动视差来估计深度信息。论文指出为了提高这些方法的性能丰富的监督数据是至关重要的。这表明在训练深度估计模型时需要大量的标记数据例如精确标记的3D点云和与之对应的2D图像以确保模型能够学习如何准确地估计深度。同时不同的深度估计方法可能被组合使用以充分利用各自的优势并提高整体的性能。您所描述的方向探讨了在训练阶段使用激光雷达数据来增强深度学习模型的能力同时在实际应用中只依赖于摄像头输入。这种方法尤其对汽车制造商来说很有吸引力因为他们在研发阶段可以访问配备了多种传感器的测试车辆但出于成本和复杂性的考虑最终的消费者产品可能仅装配有摄像头。这种策略允许在不牺牲最终产品的简洁性和经济性的情况下充分利用训练阶段可用的丰富数据和传感器。聚合或融合方法可以根据它们在数据处理管道中的位置被分类为早期聚合、中期聚合或晚期聚合早期聚合Early Fusion: 在这种方法中激光雷达和图像数据在输入层或在网络的初始阶段就被结合起来。模型从开始就学会如何整合不同传感器的信息。中期聚合Mid-level Fusion: 在这种情况下融合发生在网络的中间层。此时从各个传感器得到的特征已经经过一定程度的处理网络将这些中级表示融合在一起以进行进一步的分析。晚期聚合Late Fusion: 这种融合策略涉及将来自各个独立传感器的高级信息在网络的后期阶段结合起来。这可能意味着在决策层面进行融合例如在不同的模型为同一任务输出它们的预测之后。在摄像头只输入的部署场景中深度学习模型需要学会无激光雷达情况下的视觉感知。这通常通过激光雷达数据来提供训练阶段的深度监督来实现模型在此阶段可以学习深度的表示和估计。然后这些学到的表示可以在实际应用中没有激光雷达的帮助下用来从摄像头数据中推断深度信息。这个过程通常涉及到跨模态知识转移其中模型的一部分在训练时利用激光雷达数据而在实际应用中则被训练来依赖于摄像头数据。综上所述这种方法的关键优势是在生产部署中实现了成本效益和系统简化同时还能利用激光雷达等高精度传感器的训练期间的深度监督优势。融合机制传感器融合算法最直接的设计是将相机和激光雷达的两组特征分别连接起来。然而正如前几节所述如何“对齐”来自不同来源的特征至关重要。这意味着a来自相机的特征表示在3D几何空间而不是2D上下文中被适当地描绘b 三维空间中的点云与二维空间中的对应点云具有精确的对应关系这意味着激光雷达和相机之间的软同步和/或硬同步得到了很好的保证。在上述先决条件的基础上如何设计一个优雅的融合方案需要社区更多的关注。这方面的未来努力可能是a利用自我和/或交叉注意力在Transformer精神中整合来自各种模态的特征表示[14]b 来自一般多模态文献的知识也可能是有利的例如CLIP公式[18]中文本-图像对的哲学可以启发在自主驾驶领域中不同传感器的信息集成。传感器融合是自动驾驶技术中的一个关键组成部分它需要将来自不同传感器的数据如相机和激光雷达结合起来以提供对车辆周围环境的更全面的理解。总结你提供的内容我们可以理解如下特征“对齐”传感器融合的一个主要挑战是如何有效地“对齐”来自不同传感器的数据。对于相机和激光雷达这意味着需要将相机获取的2D图像数据转化为3D空间中的表示以匹配激光雷达的3D点云数据。确保激光雷达的点云和相机图像在几何上是精确对应的这可能涉及时间同步软同步和空间对齐硬同步。设计优雅的融合方案为了更有效地整合不同模态的数据研究社区需要专注于设计新的融合方法。一些可能的研究方向包括利用Transformer架构通过自注意力和交叉注意力机制可以整合来自不同模态的特征表示如将图像特征和点云数据相互关联。借鉴多模态学习文献例如CLIP模型中用于图像和文本配对的方法可以为自动驾驶中传感器数据的集成提供启示帮助不同传感器信息的融合。总之传感器融合算法的关键在于如何处理和整合来自不同源的信息以确保自动驾驶系统可以获得一致且准确的环境感知能力。这需要不断的研究和开发以创造出更为高效和精确的融合技术。提高泛化能力的无参数设计 BEV感知中最大的挑战之一是进行主适应。一个数据集中经过训练的模型在另一个数据集中的表现和泛化能力如何。我们无法承担每个数据集中算法的高昂成本训练、数据、注释等。由于BEV感知本质上是对物理世界的3D重建我们认为一个好的检测器必须与相机参数特别是外部矩阵紧密相连。不同的基准具有不同的相机/传感器设置对应于物理位置、重叠区域、FOV视场、失真参数等。这些因素都会导致将良好性能从一个场景转移到另一个领域的极端困难。为此它敦促我们将网络与相机参数解耦也就是说使特征学习独立于外在和/或内在矩阵。学术界外在自由[190]和工业界矫正模块[6]都在这个方向上做了一些有趣的工作。尽管如此这是不重要的作为未来的工作最好从社区进行更多的调查。无参数设计具有鲁棒性可以解决现实应用中由于道路颠簸和摄像机不稳定而导致的检测不准确问题。促进纯电动汽车感知的基础模型近年来在普通视觉界蓬勃发展大型或基础模型[141518191192]在许多领域和任务中取得了令人印象深刻的性能并超越了现有技术。纯电动汽车的感知至少有两个方面值得研究。一种是应用驻留在大型预训练模型中的丰富知识并提供更好的初始检查点来进行微调。然而正如前一节所暗示的那样一些2D基础模型的直接自适应在3D BEV意义上可能不能很好地工作。如何设计和选择基础模型来更好地适应自动驾驶任务是一个长期存在的研究问题。战是如何有效地“对齐”来自不同传感器的数据。对于相机和激光雷达这意味着需要将相机获取的2D图像数据转化为3D空间中的表示以匹配激光雷达的3D点云数据。确保激光雷达的点云和相机图像在几何上是精确对应的这可能涉及时间同步软同步和空间对齐硬同步。设计优雅的融合方案为了更有效地整合不同模态的数据研究社区需要专注于设计新的融合方法。一些可能的研究方向包括利用Transformer架构通过自注意力和交叉注意力机制可以整合来自不同模态的特征表示如将图像特征和点云数据相互关联。借鉴多模态学习文献例如CLIP模型中用于图像和文本配对的方法可以为自动驾驶中传感器数据的集成提供启示帮助不同传感器信息的融合。总之传感器融合算法的关键在于如何处理和整合来自不同源的信息以确保自动驾驶系统可以获得一致且准确的环境感知能力。这需要不断的研究和开发以创造出更为高效和精确的融合技术。提高泛化能力的无参数设计 BEV感知中最大的挑战之一是进行主适应。一个数据集中经过训练的模型在另一个数据集中的表现和泛化能力如何。我们无法承担每个数据集中算法的高昂成本训练、数据、注释等。由于BEV感知本质上是对物理世界的3D重建我们认为一个好的检测器必须与相机参数特别是外部矩阵紧密相连。不同的基准具有不同的相机/传感器设置对应于物理位置、重叠区域、FOV视场、失真参数等。这些因素都会导致将良好性能从一个场景转移到另一个领域的极端困难。为此它敦促我们将网络与相机参数解耦也就是说使特征学习独立于外在和/或内在矩阵。学术界外在自由[190]和工业界矫正模块[6]都在这个方向上做了一些有趣的工作。尽管如此这是不重要的作为未来的工作最好从社区进行更多的调查。无参数设计具有鲁棒性可以解决现实应用中由于道路颠簸和摄像机不稳定而导致的检测不准确问题。促进纯电动汽车感知的基础模型近年来在普通视觉界蓬勃发展大型或基础模型[141518191192]在许多领域和任务中取得了令人印象深刻的性能并超越了现有技术。纯电动汽车的感知至少有两个方面值得研究。一种是应用驻留在大型预训练模型中的丰富知识并提供更好的初始检查点来进行微调。然而正如前一节所暗示的那样一些2D基础模型的直接自适应在3D BEV意义上可能不能很好地工作。如何设计和选择基础模型来更好地适应自动驾驶任务是一个长期存在的研究问题。另一项尚未完成的努力是如何发展多任务学习的理念就像BEV感知的基础模型一般ist一样。在普通视觉文献中有一些有趣的工作其中OFA[193]、Uni-inceptor MoE[194]、GATO[195]等将执行多个复杂的任务并获得令人满意的结果。我们能否将类似的哲学应用于BEV感知并将多个任务统一在一个框架中这是有意义的因为自动驾驶中的感知和认知领域需要合作处理复杂的场景以实现L5的最终目标

查看全文

http://www.w-s-a.com/news/145308/