php做网站麻烦吗,网站建设创业经历,外贸零售网站建设,seo品牌优化百度资源网站推广关键词排名纵目发表的这篇单目3D目标检测论文不同于以往用2D预选框建立3D信息#xff0c;而是采取直接回归3D信息#xff0c;这种思路简单又高效#xff0c;并不需要复杂的前后处理#xff0c;而且是一种one stage方法#xff0c;对于实际业务部署也很友好。 题目#xff1a;SMOKE而是采取直接回归3D信息这种思路简单又高效并不需要复杂的前后处理而且是一种one stage方法对于实际业务部署也很友好。 题目SMOKESingle-Stage Monocular 3D Object Detection via Keypoint Estimation代码https://github.com/lzccccc/SMOKE
Introduction 2D目标检测目前已经在精度和速度上都取得了不错的成绩而3D目标检测由于需要同时估计出目标的位置与姿态因此相比2D是一个更具挑战的方向。 目前性能最好的3D目标检测还是需要依赖激光雷达的点云或者点云图像融合考虑到成本因素仅依靠单目摄像头的3D目标检测还是非常值得研究的。 本作有以下几个贡献点:
提出了一个one-stage单目3D检测方法思路简答且end-to-end。3D框8个角点的计算使用了多种方式得到每种方式都参与了loss的计算使训练更容易收敛。在KITTI数据集上达到了SOTA。
Detection Problem SMOKE Approach Backbone
主干网络选择使用DLA-34其中部分卷积换成了DCN最后的输出相对于原始图4次下采样的特征图。论文还将BN换成了GN(GroupNorm)因为GN对batch size的大小不那么敏感且在训练中对噪声更鲁棒。
3D Detection Network
head部分一共两条分支一条用于检测目标中心点位置同时分类另一条回归目标的3D信息。
Keypoint Branch
中心点的估计与CenterNet那片论文的思路相似不同的是CenterNet里用的是2D框的中心点而这里用的是3D框的中心点在图像上的投影点如下图所示:
Regression Branch 根据深度信息投影点(x,y)坐标和相机参数可计算得到3D中心点坐标 预测长宽高有点像anchor的思想 偏航角ray到Z轴角度 Loss Function 偏航角pred与尺寸gt坐标gt构成的3d box与gt的回归loss 偏航角gt与尺寸pred坐标gt构成的3d box与gt的回归loss 偏航角gt与尺寸gt坐标pred构成的3d box与gt的回归loss Keypoint Classification分支的loss跟CenterNet中一样用的是focal loss。
Regression分支的loss计算比较有新意没有采取直接计算τ \tauτ中8个参数的loss而是通过在角度、尺寸、坐标位置三种分支下得到的3D框的8个角点去和真值比较计算loss。
总loss:
# mmdetection3d/mmdet3d/models/dense_heads/smoke_mono3d_head.py
# 角度分支下计算得到的3D框所谓角度分支即只有角度用的是预测值而坐标位置和尺寸两个用的是真值
bbox3d_yaws self.bbox_coder.encode(gt_locations, gt_dimensions, orientations, img_metas)
# 尺寸分支下计算得到的3D框
bbox3d_dims self.bbox_coder.encode(gt_locations, dimensions, gt_orientations, img_metas)
# 坐标位置分支下计算得到的3D框
bbox3d_locs self.bbox_coder.encode(locations, gt_dimensions, gt_orientations, img_metas)
...
...
# 三种分支下分别计算推理出的8个角点的和真值8个角点的loss
loss_bbox_oris self.loss_bbox(pred_bboxes[ori].corners[reg_inds, ...], target_labels[gt_cors][reg_inds, ...])loss_bbox_dims self.loss_bbox(pred_bboxes[dim].corners[reg_inds, ...], target_labels[gt_cors][reg_inds, ...])loss_bbox_locs self.loss_bbox(pred_bboxes[loc].corners[reg_inds, ...], target_labels[gt_cors][reg_inds, ...])loss_bbox loss_bbox_dims loss_bbox_locs loss_bbox_orisConclusion 纵目发表的这篇单目3D目标检测论文不同于以往用2D预选框建立3D信息而是采取直接回归3D信息这种思路简单又高效并不需要复杂的前后处理而且是一种one stage方法对于实际业务部署也很友好。
参考https://blog.csdn.net/qq_30483585/article/details/124954023