输入数据
- 图像
- 点云
输出数据
位置、尺寸、方向、形状、类别......
三维数据传感模式
- 单目相机
- 光探测和测距
- RGB-D 深度相机
- 激光雷达
- 超声雷达
指标
- 平均精度(mAP)
- 平均方向相似性(AOS)、平均航向相似性(AHS)
- 鲁棒性
- IoU?
数据集
- KITTI
自动驾驶领域著名
方法
- 基于图像信息
- 基于单目图像(包含基于RGB-D图像)
先进行2D目标检测,再利用几何原理估计3D包围框。
算法:3VDP、RPN、Deep 3D Box、GS3D、YOLO-6D
缺点:缺少深度信息,精度低-->利用深度图提取深度信息再估计
- 基于双目图像
- 基于激光雷达点云
- 基于非结构化点云
缺点:点云的无序性,无法输入CNN,计算复杂度高
算法:PointNet、PointNet++、PointRCNN、
- 基于体素
将点云量化再进行检测,有点类似微元的思想
缺点:空的体积元素多,降低处理效率,计算复杂
优点:可以直接应用于三维卷积网络
算法: SECOND、VoxelNet
- 基于投影视图
投影到2D视图、球面视图、柱面视图或鸟瞰视图(BEV),先检测获得二维边界框,然后通过位置和尺寸对这些二维边界框进行回归,得到三维边界框。
缺点:转换过程中损失信息
- 图像与点云融合(多模态融合)
分类:前融合--输入层融合、深度融合--特征层融合、后融合--决策层融合
算法:MV3D、F-PointNet、RoarNet、MMF(CVPR19)
优点:图像提供纹理,点云提供深度
待学
二位目标检测的AlexNet及其之后的算法
VGG-16、ResNet、darknet
最小二乘法
矩阵计算理论