据苹果研究人员发表在学术网站上的一篇论文显示,苹果公司正在研究如何让自动驾驶在更经济的情况下能够更准确地识别行人和其他潜在的危险。
据领英网描述,Yin Zhou 和 Oncel Tuzel 是苹果公司的 AI 研究人员,他们在 11 月 17 日向学术网站 arxiv 提交了题为“VoxelNet:End-to-End Learning for Point Cloud Based 3D Object Detection”的论文,它描述了一种方法,通过识别激光雷达所创建的「三维点云」中的物体可以让识别变得更高效。
激光雷达传感器在自动驾驶汽车上是很常见的,它们使用一种快速旋转的激光阵列,将汽车周围的目标反射回来。通过测量反射光线,它们可以建立一个所谓的点云,显示三维空间中存在的东西。
传感器一直以来都是非常昂贵的,尽管近些年来制造商都致力于帮助降低成本,但自动驾驶汽车需要使用大量传感器,而且,点云技术本身还不足以让汽车真正地实现自动驾驶。软件需要从根本上弄清楚每一个扫描回来的对象代表的是什么,比如是一辆车,一个行人,一个骑自行车的人,还是别的什么,如果不这样做有可能存在风险。
Zhou 和 Tuzel 的系统被称为 VoxelNet,这是一个将特征提取和边界框预测相结合的三维检测网络,并将其结合成“单阶段、端到端可训练的深度网络”。实际上,它将点云分割成三维像素块,然后将块里的一组点用“统一的特征表示”,这是由 Voxel 特征编码(VFE)层提供的。
这是提交给一个区域建议网络(Region Proposal Network,RPN),它可以把每个块编码成被识别的模型。传统上,自动驾驶汽车使用图像或视频的 RPN,与激光雷达相结合,这需要更多的传感器。然而,这种新的 VoxelNet 方法使得 RPN 可以直接应用于单独的 LIDAR 点云。
根据研究结果显示,VoxelNet 系统可以“大幅地超越目前激光雷达的其他三维检测方法”,特别是识别骑自行车和行人的能力。这可能意味着自动驾驶汽车可以配备更少传感器,这有助于降低复杂度和成本。
虽然 VoxelNet 技术主要应用于自动驾驶,但它并不局限于此。Zhou 和 Tuzel 认为,它可能同样适用于机器人和增强或虚拟现实,所有这些都需要一种快速有效的方式来实时识别物体。