中文

量子位 | 嬴彻科技拿下SemanticKITTI榜单两项第一

2020-12-01

在感知算法领域,嬴彻科技近期凭借「精准语义分割3D感知技术」,在SemanticKITTI 的「语义分割」和「全景语义分割」两项任务中夺得第一,领先于来自MIT、芝加哥大学、阿里、华为等全球各地的100多支队伍。

 

语义分割是自动驾驶感知算法的关键技术,能识别出各种场景物体,告诉汽车“身边有什么危险”,从而保障出行安全。

 

KITTI是目前发布最早、影响力最大的自动驾驶算法评测数据集。SemanticKITTI是KITTI在语义分割方向的子数据集,是激光雷达语义分割的重要基准之一。为了推动激光雷达的语义分割研究,SemanticKITTI举办了3D语义分割比赛,包括「语义分割」和「全景语义分割」等任务。

 

任务一 「语义分割」,要求能准确识别出场景中的物体类型(如汽车、行人);任务二 「全景语义分割」,要求对场景中的所有物体都进行精确个体级辨识,即类型基础上,为每个物体赋予1个ID(如1号车、2号车……)。

 

 

图1:榜首的Cylinder3D & noah820为来自嬴彻科技的两支参赛团队

相较于传统的激光雷达语义分割算法,嬴彻这次做出了哪些突破?来自嬴彻Inceptio X-Lab的李伟博士,与量子位详细分享了其中的技术原理。

01 从“划井字”到“切蛋糕”,使点云分割更均匀

在点云分割上,算法实现了「圆柱坐标系下的体素划分」。

 

 

李伟博士用“划井字”和“切蛋糕”,对这一突破进行了类比。传统激光雷达点云的分割方法,就像是正正经经划“井”字一样,将空间划成多个方块,但是单个体素块内的点云就会出现近多远少、分布不均衡的问题;

 

那么,“圆柱坐标系下的体素划分”,就是从激光雷达扇形扫描的特性出发,即更加符合点云数据的分布特点,以“切蛋糕”的方式进行分区。近处密集的点,单元划分空间也小;远处稀疏的点,单元划分空间就更大,体素块内点云更均匀。

02 “核骨架增强”,揭开半遮半掩的面纱

做目标检测的小伙伴们都有过这样的经历:一个完整的物体,AI通常都能检测出来。 然而如果这个物体“遮遮掩掩”,检测效果就大打折扣。

通过识别这个物体的核骨架(skeleton of the kernel),就能够拨开面纱检测出物体。

 

 

为达到这个目的,在数据处理的部分,算法中新增了「非对称3维神经网络模块」。

这一模块,在水平和垂直两个方向分别增强卷积核,能更好地匹配驾驶场景下的物体形状分布,从多角度更全面地看到每个点云的状态,即使在遮挡或是稀疏点云输入的情况下,也能准确地辨别物体。

 

03 从单一划区到块点结合,精细区分小物体

区块检测是目前常用的方法,缺点是不同类别的点云有可能被划分到一个体素块内,物体分割的细节容易丢失,准确性降低。

 

嬴彻在划区的基础上,再进行「单个三维点云级别的分割」,获得精细细节。如下图所示,嬴彻的方法有效在一个小区域中继续精确分割出更小的物体。

 

 

块点结合检测的效果,不仅辨识精度更高,且更易于小物体的识别,极大地提升了高速行车的安全性。

 

嬴彻此次发布的「精准语义分割3D感知技术」,基于激光雷达的感知算法,与纯摄像头方案形成双重冗余,满足在多场景下、尤其是夜晚的感知需求。

 

 

此外,这一算法还能更鲁棒、更及时的感知高速公路上突发遇到的小物体,如突然蹿出的小动物,从而更及时做出路径规划,确保高速行车安全。

 

比赛链接:

https://competitions.codalab.org/competitions/24025#results

https://competitions.codalab.org/competitions/20331#results

http://www.semantic-kitti.org

 

paper链接:

https://arxiv.org/abs/2011.10033

https://arxiv.org/abs/2011.11964

 

code链接:

https://github.com/xinge008/Cylinder3D