PV-RCNN提出了一种结合点云和体素特征的新颖两阶段目标检测框架。通过将原始点云转换为体素,提取不同尺度的特征,然后投影至鸟瞰图视角,使用锚基方法预测候选框和类别。同时,对原始点云按FPS采样,通过体素到关键点提取不同阶段的体素特征,作为关键点的多尺度特征。第二阶段将3D候选框与关键点特征融合,引入了一个名为Rol-Grid Pooling的模块进行特征融合,再通过FC层提取特征,最终输入框回归分支和置信度分支。
PV-RCNN通过体素化及特征提取,将点云空间划分为L * W * H的体素格子,非空体素的特征为内部所有点特征的均值。采用稀疏卷积对特征进行降采样,得到不同尺度的特征。8倍下采样的特征通过Z轴投影得到2D特征图,基于锚基方法预测出3D候选框。实验表明,这种候选框生成方式具有更好的效果。
引入关键点是为了提高精度和减少内存占用。通过关键点的特征集成到后续框优化网格中,不仅节省内存,还保留了丰富的特征。Voxel-to-keypoint编码将提取到的多尺度特征分配给关键点,通过PointNet模块进一步提取关键点特征。不同尺度的特征拼接形成关键点的多尺度特征。实验阶段对比了不同特征组合的效果,训练阶段采用关键点是否在3D GT Box内部的标签,结合Focal Loss损失函数预测权重系数,关键点特征乘上该系数后用于后续候选框优化。
Keypoint-to-grid RoI旨在将3D候选框与关键点特征融合,提高检测性能。此过程分为三个步骤。预测分支在得到每个3D候选框的特征后,通过两层MLP,借助Box优化分支预测框大小、方向及位置信息,然后通过confidence分支预测框的置信度。
PV-RCNN通过结合点云和体素的优势,优化了目标检测的准确性和效率,展现出了卓越的效果。
温馨提示:答案为网友推荐,仅供参考