单产品网站建设,郑州网站制作推广公司,做网站如何宣传,装饰工程施工流程步骤VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
Abstract
摘要部分#xff0c;作者首先指出了3D点云中目标检测的重要性#xff0c;在自动驾驶导航、家政机器人以及增强现实和虚拟现实等多个领域有重要的作用。然后#xff0c;提到了现有方法的…VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
Abstract
摘要部分作者首先指出了3D点云中目标检测的重要性在自动驾驶导航、家政机器人以及增强现实和虚拟现实等多个领域有重要的作用。然后提到了现有方法的局限性这些方法大多依赖于手工设计的特征表示例如通过鸟瞰图投影高度稀疏的LiDAR点云与区域提议网络RPN进行接口。
为了克服这些限制提出了VoxelNet是一个无需手动特征工程的通用3D检测网络。VoxelNet将特征提取和边界框预测集成到一个单一的、端到端可训练的深度学习网络中。通过将点云分割成等间距的3D体素并在每个体素内通过新引入的体素特征编码VFE层将一组点转换为统一的特征表示从而将点云编码为描述性的体积表示。
接下来提到了VoxelNet与RPN的连接用于生成检测结果。作者展示了在KITTI汽车检测基准测试中VoxelNet在性能上大幅度超越了现有的基于LiDAR的3D检测方法。此外VoxelNet在3D检测行人和骑行者的检测中也取得了较好的结果。
Introduction
作者首先阐述了3D目标检测在自动驾驶导航、家政机器人以及增强现实和虚拟现实等众多应用中的核心作用。特别指出与传统的基于图像的检测方法相比LiDAR技术能够提供更为可靠的深度信息。然而LiDAR点云数据的稀疏性和点密度的不均匀性包括3D空间的非均匀采样、传感器的有效范围、遮挡以及相对姿态等为3D目标检测带来了挑战。
现有的方法尝试通过手工设计的特征表示来优化点云数据的处理例如通过透视图投影或将点云映射到3D体素网格中并为每个体素编码手工设计的特征。这些方法在在适应更复杂的形状和场景、从数据中学习所需的不变性方面存在局限性。
然后作者进一步讨论了图像在提供详细纹理信息方面的优势并指出许多算法尝试从2D图像中推断3D边界框。然而基于图像的3D检测方法的准确性受到深度估计准确性的限制。此外一些基于LiDAR的3D目标检测技术使用体素网格表示并采用不同的统计量来编码每个非空体素。还有研究将点云投影到透视图上然后使用基于图像的特征编码方案。此外还有一些多模态融合方法通过结合图像和LiDAR数据来提高检测精度尤其是在检测行人、骑自行车者等小目标或远距离目标时。本文的工作仅使用关于LiDAR的检测方法。
Related Work
作者详细介绍了与VoxelNet相关的研究工作这些工作主要集中在3D点云中的目标检测和定位。首先回顾了一些早期的方法这些方法使用手工设计的特征表示。早期方法在3D形状信息丰富且详细的情况下能够取得令人满意的结果但它们不能很好地适应更复杂的形状和场景并且难以从数据中学习所需的不变性。
随后作者提到了一些利用图像提供详细纹理信息的算法这些算法从2D图像中推断出3D边界框。然而基于图像的3D检测方法的准确性受到深度估计准确性的限制。此外还有几项基于LiDAR的3D目标检测技术使用体素网格表示并采用不同的统计量来编码每个非空体素这些方法将每个非空体素与6个统计量一起编码这些统计量是从体素内包含的所有点中派生出来的。
作者还提到了一些将点云投影到透视图上然后使用基于图像的特征编码方案的方法。此外还有几项研究采用了多模态融合方法通过结合图像和LiDAR数据来提高检测精度。在这项工作中作者专注于仅使用LiDAR的检测方法并提出了VoxelNet用于基于点云的3D检测直接在稀疏的3D点上操作避免手动特征工程引入的信息瓶颈。
Contributions
提出了一种新的基于点云的3D检测的端到端可训练深度架构VoxelNet直接操作在稀疏的3D点上避免了人工特征工程带来的信息瓶颈。
提出了一种有效的实现VoxelNet的方法该方法既受益于稀疏的点结构又受益于对体素网格的高效并行处理。
在KITTI基准上进行了实验并表明VoxelNet在基于lidar的汽车、行人和骑行者检测基准中产生了最先进的结果。
VoxelNet
VoxelNet Architecture
这一部分详细介绍了VoxelNet的架构包括其三个主要功能模块特征学习网络、卷积中间层和区域提议网络RPN。 VoxelNet的架构
特征学习网络是VoxelNet架构的第一部分负责将输入的点云分割成等间距的3D体素并在每个体素内通过体素特征编码VFE层将点转换为特征表示。这个过程包括体素划分、点的分组、随机采样和堆叠的VFE层。VFE层通过结合点特征和局部聚合特征来实现体素内点的交互从而编码出能够描述局部3D形状信息的特征。 VFE层
卷积中间层在特征学习网络之后卷积中间层使用3D卷积、批量归一化BN和ReLU激活函数来处理由VFE层输出的稀疏4D张量。这些层逐步扩展感受野将局部体素特征聚合成更广泛的空间上下文从而为形状描述添加更多信息。 RPN网络
区域提议网络RPN最后卷积中间层的输出被送入RPN该网络负责生成3D检测结果。RPN利用修改后的架构包括全卷积层、上采样和特征映射的连接最终输出概率得分图和回归图。
Loss Function
作者介绍了VoxelNet的损失函数以及如何通过这个损失函数来训练网络。
作者定义了一个损失函数由分类损失和回归损失组成。分类损失用于区分正负锚点而回归损失则用于精细调整预测的边界框。
损失函数L由几项组成包括正锚点的分类损失、负锚点的分类损失和所有正锚点的回归损失。分类损失使用二元交叉熵损失函数而回归损失则使用Smooth L1函数。
作者引入了平衡常数α和β来调整分类损失和回归损失在总损失中的相对重要性。
通过这个损失函数VoxelNet能够在训练过程中同时学习到如何正确分类目标和如何精确地预测目标的3D边界框。
Efficient Implementation
作者阐述了VoxelNet的高效实现方法主要解决GPU对密集张量结构优化而点云数据本身稀疏的矛盾。作者提出了一种策略将稀疏的点云数据转换成可以高效处理的密集张量结构。
首先介绍了使用稀疏4D张量来表示非空体素的特征。然后描述了一种预处理步骤通过初始化一个多维张量结构来存储点云中每个体素的特征并通过哈希表快速检查和插入点确保处理过程的时间效率。
还采用了随机化和采样技术对点云中的点进行随机化处理并在点多的体素中进行固定数量的随机采样以减少计算负担并避免因点数不平衡带来的偏差。
接下来解释了如何通过堆叠的VFE层进行点级别和体素级别的密集操作这些操作可以在GPU上并行执行从而加快处理速度。在计算完体素特征后提出了一种方法来重新组织这些稀疏特征将其映射回密集的体素网格中使得后续的卷积操作和RPN能够在GPU上高效执行。
最后作者提供了实验设置的详细信息包括网络的具体配置和用于不同检测任务如汽车、行人和自行车检测的参数选择。通过这些方法VoxelNet能够在保持高精度的同时有效地处理大规模的3D点云数据。
Training Details
这一部分主要就是讲一下训练的细节
Network Details
作者详细说明了VoxelNet的网络细节和训练过程。
首先基于KITTI数据集的LiDAR规格设定了汽车检测任务的点云处理范围并移除了超出图像边界的点。接着选择了体素的大小并设定了每个非空体素中随机采样的最大点数。使用两层VFE层第一层将输入特征从7维转换到32维第二层进一步将特征从32维转换到128维。最终通过一个全连接网络层将VFE层的输出映射到128维的特征空间生成了一个形状为128×10×400×352的稀疏张量。
为了聚合体素级别的特征作者采用了三个卷积中间层这些层通过3D卷积、批量归一化和ReLU激活函数逐步扩展感受野增强了形状描述的上下文信息。输入到RPN的是一个经过重塑的特征图其尺寸为128×400×352对应于通道、高度和宽度。
作者还提到了在RPN中使用的锚点尺寸和旋转角度以及锚点匹配的标准。使用了一种特定的标准来确定锚点是正样本、负样本还是不关心的样本并为损失函数中的分类损失和回归损失设置了平衡系数。
在行人和自行车检测任务中作者使用了与汽车检测相同的体素大小和网络配置调整了输入范围和采样的最大点数以更好地捕获这些小目标的形状信息。对于RPN对第一个块中的步长进行了修改以实现更细粒度的锚点匹配。
在训练过程中使用了随机梯度下降SGD优化器并在前150个周期使用0.01的学习率在最后的10个周期将学习率降低到0.001。每批训练使用了16个点云。
最后作者提到了在训练中使用的损失函数它结合了分类损失和回归损失使用了Smooth L1函数来优化3D边界框的预测。
Data Augmentation
这一部分作者介绍了对VoxelNet进行数据增强的方法。
由于KITTI数据集中训练点云的数量不到4000个从头开始训练网络可能会遇到严重的过拟合问题。作者采用了三种不同的数据增强技术。
第一种数据增强是对每个真实边界框及其内的点云进行独立扰动。具体来说围绕Z轴对边界框以及其中的点云进行随机旋转旋转角度是从-π/10到π/10的均匀分布随机变量。然后对边界框的XYZ分量以及框内每个点的XYZ坐标添加高斯分布的随机平移其中均值为0标准差为1.0。为了确保物理上的合理性作者在扰动后进行了碰撞检测如果检测到碰撞则恢复到原始状态。
第二种数据增强是全局尺度缩放。作者将所有真实边界框的XYZ坐标和尺寸以及整个点云的XYZ坐标乘以一个从0.95到1.05的均匀分布随机变量从而增强了网络对不同大小和距离物体的检测鲁棒性。
第三种数据增强是全局旋转。作者对所有真实边界框和整个点云应用沿Z轴的全局旋转旋转角度是从-π/4到π/4的均匀分布随机变量。这种旋转模拟了车辆转弯的情况。
通过这三种数据增强方法VoxelNet能够学习到更多的变化从而提高了模型在看不见的数据上的泛化能力并减少了过拟合的风险。
Experiments
详细描述了对VoxelNet进行的实验评估过程。
作者首先介绍了实验的评估标准和所用数据集。使用了KITTI 3D对象检测基准测试该测试包含7481个训练图像/点云和7518个测试图像/点云涵盖了汽车、行人和骑自行车者三个类别。每个类别的检测结果根据对象大小、遮挡状态和截断水平分为简单、中等和困难三个难度级别。
为了全面评估VoxelNet作者遵循了之前描述的协议并将训练数据细分为训练集和验证集以避免同一序列的样本同时出现在训练集和验证集中。训练集包含3712个样本验证集包含3769个样本。作者没有访问测试集的真实数据因此使用KITTI服务器的协议进行了评估。
接下来作者比较了VoxelNet与其他几种顶尖算法的性能包括基于单目图像的方法Mono3D 和 3DOP 、基于LiDAR的方法VeloFCN 和 3D-FCN 以及多模态方法MV 。尽管其他一些领先的方法在KITTI基准测试中使用了RGB图像和LiDAR点云的组合但VoxelNet仅使用了KITTI数据集中提供的LiDAR数据。
作者实现了一个强基线模型以分析端到端学习的重要性称为手工制作基线HC-baseline该模型从VoxelNet架构派生而来但使用手工制作的特征代替了所提出的特征学习网络。HC-baseline使用了在中描述的鸟瞰图特征并增加了高度通道的数量以捕获更详细的形状信息。
最后作者在KITTI验证集上进行了评估并使用平均精度AP作为比较指标。他们遵循官方KITTI评估协议对汽车类别使用0.7的IoU阈值对行人和骑自行车者类别使用0.5的IoU阈值。
Evaluation on KITTI Validation Set
描述了在KITTI验证集上对VoxelNet进行评估的结果。
首先按照官方KITTI评估协议使用交并比IoU阈值来评估检测性能。对于汽车类别IoU阈值设为0.7而对于行人和骑自行车者类别IoU阈值则设为0.5。使用了平均精度AP作为主要的度量指标。
在鸟瞰图Birds Eye View检测任务中VoxelNet在所有难度级别上均展现出优于其他竞争方法的性能。具体来说VoxelNet在简单、中等和困难级别上的AP分别为89.60%、84.81%和78.57%。与此同时作者还将VoxelNet与手工特征基线HC-baseline进行了比较发现VoxelNet在行人和骑自行车者的检测任务上取得了显著更高的AP表明端到端学习对于点云基础的检测至关重要。
在3D检测任务中VoxelNet同样在所有难度级别上表现出色AP分别为81.97%、65.46%和62.85%。与HC-baseline相比VoxelNet在3D检测上的性能提升更为明显。
作者还指出尽管VoxelNet仅使用了LiDAR数据但其性能却显著优于一些使用了LiDAR和RGB图像组合的现有方法。此外作者还提到了VoxelNet在KITTI测试集上的表现通过向官方服务器提交检测结果进行了评估并发现VoxelNet在所有任务中均优于之前发布的最先进方法。
最后作者展示了一些定性的检测结果将使用LiDAR检测到的3D边界框投影到RGB图像上以便更直观地展示VoxelNet检测的准确性。
Evaluation on KITTI Test Set
讨论了VoxelNet在KITTI测试集上的性能评估。
作者在KITTI测试集上对VoxelNet进行了评估并将结果提交给了KITTI官方服务器。评估涵盖了汽车、行人和骑自行车者三个类别的3D检测任务包括鸟瞰图和全3D检测两种模式。
具体来说在3D汽车检测的简单、中等和困难级别上VoxelNet分别达到了77.47%、65.11%和57.73%的性能。在鸟瞰图检测模式下这些数字分别为89.35%、79.26%和77.39%。对于行人检测3D检测的AP分别为39.48%、33.69%和31.51%鸟瞰图检测的AP分别为46.13%、40.74%和38.11%。对于骑自行车者3D检测的AP分别为61.22%、48.36%和44.37%鸟瞰图检测的AP分别为66.70%、54.76%和50.55%。
结果证明了VoxelNet在不同类别和难度级别上的有效性而且也显示了其在仅使用LiDAR数据的情况下相较于其他多模态方法的优势。作者还提到了VoxelNet的推理时间指出在TitanX GPU和1.7GHz CPU上网络的总运行时间为33毫秒。
Conclusion
大多数现有的基于激光雷达的3D检测方法依赖于手工制作的特征表示例如鸟瞰投影。本文消除了人工特征工程的瓶颈提出了VoxelNet是一种新颖的端到端可训练的基于点云的三维检测深度架构。可以直接在稀疏的三维点上操作有效地捕获三维形状信息。还提出了一种有效的VoxelNet实现它受益于点云稀疏性和体素网格上的并行处理。
在KITTI汽车检测任务上的实验表明VoxelNet在很大程度上优于最先进的基于LiDAR的3D检测方法。在更具挑战性的任务中例如行人和骑自行车的人的3D检测VoxelNet也展示了令人鼓舞的结果表明它提供了更好的3D表示。
未来的工作包括扩展VoxelNet用于联合激光雷达和基于图像的端到端3D检测以进一步提高检测和定位精度