谷歌研发出可识别高透明度物体的3D扫描算法

2020-02-29 02:46:49来源:青亭网


随着摄像头与算法技术不断发展,3D扫描已经应用于越来越多的领域,比如:3D商品预览、数字博物馆、生物识别、容积捕捉、AR、VR、自动驾驶汽车的环境识别、机器人等。与人的视觉不同,目前3D扫描还不能清晰识别所有表面或颜色,黑色或反光表面通常比较难以识别,而玻璃罐等高透明度的物体更是容易完全被忽略。

无我VR 聚合新闻

这是因为,3D传感器的算法会假定所有物体的表面都符合理想散射(Lambertian,指的是能够向所有方向均匀反光)规律,这也是为什么很多3D扫描数据从多个角度看亮度都一样。而高透明度的物体并不遵循这一规律,它的表面在反光同时,也会折射光线,因此大多数高透明度物体的深度数据并不可用或是包含无法预测的噪点。

为了解决这一问题,谷歌科研人员与SynthesisAI和哥伦比亚大学合作开发了一款名为ClearGrasp的机器学习算法,特点是能通过RGB-D摄像头准确预测高透明度物体的3D数据。与以往的其他方案相比,ClearGrasp优势在于不需要提前了解所扫描物体的3D数据,遇到从未见过的新物体也能进行扫描。

无我VR 聚合新闻

据悉,通常训练深度学习模型需要使用大量数据,但科研人员发现,包括常用的Matterport3D和ScanNet等市面上常见的数据集,并不包含高透明物体的3D数据,因为人工标记的成本高,耗时也久。

无我VR 聚合新闻

于是,谷歌自己创建了一个包含5万个以上逼真合成图的数据集,每张图中包含不多于五个高透明度物体,数据中包含曲面法线、分割掩模、边缘和深度等训练2D/3D识别任务所需的信息。

无我VR 聚合新闻

考虑到高透明度物体容易扭曲透出来的背景,容易让普通的深度识别方法失效,科研人员想出了一种新的办法。他们发现,高透明度表面具备镜面反射特性,在光线好的环境中会产生一些亮点,这种视觉线索在RGB图像中足够明显,并且主要受到物体形状影响,因此卷曲神经网络可通过这些反射光点来准确推算曲面法线,提高深度预测准确性。

同时,考虑到与直接从平面RGB图像中预测深度相比,直接修正RGB-D3D摄像头的扫描数据更实际,科研人员在训练ClearGrasp时使用了模拟的3D扫描成像。市面上大多数RGB-D摄像头预测非透明物体表面的准确度足够好,因此只需要通过图像中非透明表面的深度来推断透明表面的深度。

无我VR 聚合新闻

利用合成数据集训练的三个神经网络识别真实的高透明度物体效果不错,不过对墙、水果等物体的曲面法线预测效果并不好。这是因为ClearGrasp所使用的合成数据集仅包含由平面和上面的高透明度物体。因此,科研人员又使用Matterport3D和ScanNet中的真实室内场景数据来训练算法,结果发现对于所有表面的预测结果都足够好。

无我VR 聚合新闻

科研人员重建了输入和输出图像的3D点云数据,发现预测出的3D表面足够干净且连贯,比单目摄像头的3D预测图降低很多锯齿状噪点,是提升3D地图测绘、3D物体识别等应用的准确性的关键。此外,ClearGrasp扫描背景图案复杂的高透明度物体或者它们之间的遮挡时效果足够好。

无我VR 聚合新闻

同时,与DeepCompletion、DenseDepth等高端3D物体识别算法相比,ClearGrasp的噪点要少很多,准确性更高。尽管使用合成数据来训练,ClearGrasp对真实场景中已知物体的识别和重建的偏差足够小,同时也可以识别没见过的复杂结构物体。

无我VR 聚合新闻

更重要的是,ClearGrasp输出的深度图可直接用来训练基于RGB-D3D识别的机器人、3D地图、AR等应用。

无我VR 聚合新闻

当然,ClearGrasp也存在一些局限,比如:由于传统路径追踪算法的局限性,所使用的的合成数据集并不包括准确的焦散参数。因此,ClearGrasp算法会将高亮度的焦散和阴影看做是与高透明度物体独立的目标。未来,可以通过模拟物理正确的焦散参数,以及指纹等不完整表面形态来解决。

无我VR 聚合新闻

此外,考虑到容积摄影技术也存在难以捕捉高亮度、高透明度物体的局限,ClearGrasp也能够提升其效果,捕捉到原本无法识别的表面,提升容积视频观感。当然,ClearGrasp也可以用于自动驾驶汽车、机器人中,帮助提升3D空间扫描、地形识别,甚至可以提升机械臂抓取物体的准确性和效率。参考:谷歌

新闻媒体更多>>
  • VR网
  • Yivian
  • 青亭网
  • 麦逗VR
  • VR陀螺
  • 魔多VR