毫无疑问,现阶段VR的发展进度比AR较快,也更早在toC和toB市场规模应用。而近年来,在Meta、Lynx、Varjo等公司推动下,VR也开始支持AR能力,Meta下一代VR头显QuestPro具备高清RGB视频透视能力,号称可实现高质量的VSTAR模式。
与HoloLens、MagicLeap等基于光学方案的AR不同,VR头显的VST透视是通过摄像头来捕捉物理环境,并实时与AR内容叠加,显示在头显中。相比之下,光学AR眼镜是通过透光原理来显示物理环境。理想的RGBVST透视是一项巨大的技术挑战,需要解决变焦、摄像头与人眼有距离等问题。
面对这些问题,Meta将如何解决呢?在QuestPro正式发布之前,RealityLabs就公布了一种基于AI优化的VST透视方案,从中也许可以提前了解到新款VR头显可能具备的特性和功能。
VST透视难点
VST透视解决了光学AR的一些技术难点,但同时也带来了一些新的挑战,其中最难的,就是基于摄像头数据来重建物理世界,模拟肉眼看世界的视觉观感。也就是说,VST透视图像的分辨率、色彩保真度、深度信号、视角等方面需要与自然的视觉相匹配,而且头显在移动时,透视画面需要尽可能减少延迟。
由于VST透视相机的位置与人眼位置不一致,会造成视角偏差,因而长时间体验不够舒适,容易产生视觉伪影。
为了解决上述问题,MetaRealityLabs研究了一种全新的VST透视方案:NeuralPassthrough,从展示的效果图来看,这种基于神经网络的方案在畸变、色彩、图像质量等方面上表现优秀,可合成准确的立体视觉,效果比Quest2透视功能大幅提升。
目前,Quest1&2仅支持黑白透视,而且画质粗糙、存在畸变,不禁让人联想到早期的黑白电视。要提升VST透视效果,不仅需要升级传感器,还需要优化图像算法,来优化畸变和伪影等瑕疵。
Meta解决方案
Meta表示:VST透视对图像质量、算力、立体视觉、视场角等有很高的的要求,尤其是若想在移动设备上运行高质量的VST透视功能,还有很长的路要走。VST透视还需要识别物体之间的遮挡,即使用户的手盖住一部分环境,也能本地运行此前捕捉到的物理环境模型。
在这项研究中,Meta致力于打造一种硬件最简化的透视系统,因此仅采用了一对立体RGB相机。但这又意味着,需要对整个软硬件系统优化,才能找到合适的相机布局和匹配的视图合成算法。
在实验中,RealityLabs科研人员改造了一台RiftS头显,采用AzureKinectDK作为立体摄像头模组,支持实时深度预测。每个RGB相机的采样率为30Hz,分辨率1280x720,视场角分别为90°。
在立体相机布局方面,Meta希望寻找一种将3D捕捉规模最大化的方案,尽可能减少被遮挡的区域,从而减少去遮挡和视图合成算法的工作量。在透视手掌、手柄等位于近距离的紧凑目标时,两个立体摄像头可通过互相补偿来捕捉被遮挡的场景。
科研人员将两个立体摄像头放在与人眼垂直的位置(基于标准IPD),并与光学元件的中心对齐。两个摄像头直接面向前方,与人眼的距离为9.3厘米。理论上讲,摄像头之间的距离应该与人眼瞳距一致,但考虑到每个人的瞳距会有差异,这种一致性很难实现。Meta提出,可一定程度上将摄像头放在比瞳距略宽的位置,目的是降低透视遮挡范围。
有趣的是,该方案似乎支持调节立体相机的位置,范围在5.4厘米到10厘米,以适应大部分人的瞳距。
算法方面,NeuralPassthrough对立体相机捕获的图像逐帧处理,渲染成具有双目立体视觉的图像。也就是说先捕捉具有深度和颜色信息的2D图像,然后利用深度学习模型处理成深度图,并通过神经网络来重建3D视图。
为了进一步优化计算,NeuralPassthrough的深度预测环节将2D图像匹配问题降低到1D,并采用了立体匹配算法RAFT-Stereo。经过训练,该深度预测网络可通过相邻像素和单目深度线索来生成合理的3D视图。
RGB-D锐化的目的主要是优化飞行像素这种伪影,根据深度图将物体的边缘锐化,从而渲染出明显、干净的深度。这对于后续的去遮挡和过滤步骤也很重要。
尽管NeuralPassthrough的计算延迟达32毫秒,RealityLabs认为还是有进一步改进的机会,比如降低深度预测模型的刷新率(30Hz),将节省出的算力用于提升色彩重建的刷新率(72Hz)。
Meta还表示:3D视频透视的质量会受到深度预测结果影响,深度测量模块在大多数情况下可产生合理的结果,但对于几何细节丰富的对象、外观根据视角变化的材质或缺少单眼深度线索等情况,现有的深度测量技术还不够理想。
利用AI重建高质量物理环境
RealityLabs科研人员表示:与以前的方案不同,我们利用深度学习的最新进展,将VST透视作为一种基于图像的神经渲染问题来解决。
NeuralPassthrough的成像过程包含了立体矫正、左右眼像差预测、RGB-D锐化、去遮挡过滤等步骤。也就是说,RGB-D摄像头捕捉到的图像需要经过AI算法调整,才会输出到头显的显示屏中。
除此之外,AI算法首先通过摄像头来识别周围空间的深度,以及空间中的物体,然后又建立了一个与人眼位置对应的合成视角。
NeuralPassthrough的AI算法是利用合成数据训练而成,这些数据包含了80个空间场景的多个视角,可以很好的帮助神经网络灵活的识别周围的空间,而且可兼容不同的相机方案和瞳距。适应不同的瞳距很重要,我们知道瞳距调节一直是VR的一项关键功能,如果透视摄像头的位置是固定的,那么将需要AI算法去调节摄像头视角,以匹配不同用户的眼睛位置。
NeuralPassthrough支持1280x720的分辨率,延迟达32毫秒。对于高质量的VST透视来讲,这个配置其实并不够好。出现这一局限的原因可能与VR一体机算力有限有关。在RealityLabs的研究中,科研人员采用了台式机来为VR头显提供算力,而且为左右眼各采用一个高端显卡来进行渲染。
另外,AI合成算法需要配备更好的深度传感器来优化透视效果。目前,NeuralPassthrough还无法重建环境光反射效果,因此依然会存在伪影。未来,还将利用多帧重建方式来提升空间重建的质量和时间一致性。参考: