Meta RGB透视VR研究：摄像头距离可调、分辨率720p

毫无疑问，现阶段VR的发展进度比AR较快，也更早在toC和toB市场规模应用。而近年来，在Meta、Lynx、Varjo等公司推动下，VR也开始支持AR能力，Meta下一代VR头显QuestPro具备高清RGB视频透视能力，号称可实现高质量的VSTAR模式。

无我VR 聚合新闻

与HoloLens、MagicLeap等基于光学方案的AR不同，VR头显的VST透视是通过摄像头来捕捉物理环境，并实时与AR内容叠加，显示在头显中。相比之下，光学AR眼镜是通过透光原理来显示物理环境。理想的RGBVST透视是一项巨大的技术挑战，需要解决变焦、摄像头与人眼有距离等问题。

面对这些问题，Meta将如何解决呢？在QuestPro正式发布之前，RealityLabs就公布了一种基于AI优化的VST透视方案，从中也许可以提前了解到新款VR头显可能具备的特性和功能。

VST透视难点

VST透视解决了光学AR的一些技术难点，但同时也带来了一些新的挑战，其中最难的，就是基于摄像头数据来重建物理世界，模拟肉眼看世界的视觉观感。也就是说，VST透视图像的分辨率、色彩保真度、深度信号、视角等方面需要与自然的视觉相匹配，而且头显在移动时，透视画面需要尽可能减少延迟。

无我VR 聚合新闻

由于VST透视相机的位置与人眼位置不一致，会造成视角偏差，因而长时间体验不够舒适，容易产生视觉伪影。

为了解决上述问题，MetaRealityLabs研究了一种全新的VST透视方案：NeuralPassthrough，从展示的效果图来看，这种基于神经网络的方案在畸变、色彩、图像质量等方面上表现优秀，可合成准确的立体视觉，效果比Quest2透视功能大幅提升。

目前，Quest1&2仅支持黑白透视，而且画质粗糙、存在畸变，不禁让人联想到早期的黑白电视。要提升VST透视效果，不仅需要升级传感器，还需要优化图像算法，来优化畸变和伪影等瑕疵。

Meta解决方案

Meta表示：VST透视对图像质量、算力、立体视觉、视场角等有很高的的要求，尤其是若想在移动设备上运行高质量的VST透视功能，还有很长的路要走。VST透视还需要识别物体之间的遮挡，即使用户的手盖住一部分环境，也能本地运行此前捕捉到的物理环境模型。

无我VR 聚合新闻

在这项研究中，Meta致力于打造一种硬件最简化的透视系统，因此仅采用了一对立体RGB相机。但这又意味着，需要对整个软硬件系统优化，才能找到合适的相机布局和匹配的视图合成算法。

在实验中，RealityLabs科研人员改造了一台RiftS头显，采用AzureKinectDK作为立体摄像头模组，支持实时深度预测。每个RGB相机的采样率为30Hz，分辨率1280x720，视场角分别为90°。

无我VR 聚合新闻

在立体相机布局方面，Meta希望寻找一种将3D捕捉规模最大化的方案，尽可能减少被遮挡的区域，从而减少去遮挡和视图合成算法的工作量。在透视手掌、手柄等位于近距离的紧凑目标时，两个立体摄像头可通过互相补偿来捕捉被遮挡的场景。

科研人员将两个立体摄像头放在与人眼垂直的位置（基于标准IPD），并与光学元件的中心对齐。两个摄像头直接面向前方，与人眼的距离为9.3厘米。理论上讲，摄像头之间的距离应该与人眼瞳距一致，但考虑到每个人的瞳距会有差异，这种一致性很难实现。Meta提出，可一定程度上将摄像头放在比瞳距略宽的位置，目的是降低透视遮挡范围。

有趣的是，该方案似乎支持调节立体相机的位置，范围在5.4厘米到10厘米，以适应大部分人的瞳距。

算法方面，NeuralPassthrough对立体相机捕获的图像逐帧处理，渲染成具有双目立体视觉的图像。也就是说先捕捉具有深度和颜色信息的2D图像，然后利用深度学习模型处理成深度图，并通过神经网络来重建3D视图。

为了进一步优化计算，NeuralPassthrough的深度预测环节将2D图像匹配问题降低到1D，并采用了立体匹配算法RAFT-Stereo。经过训练，该深度预测网络可通过相邻像素和单目深度线索来生成合理的3D视图。

RGB-D锐化的目的主要是优化飞行像素这种伪影，根据深度图将物体的边缘锐化，从而渲染出明显、干净的深度。这对于后续的去遮挡和过滤步骤也很重要。

无我VR 聚合新闻

尽管NeuralPassthrough的计算延迟达32毫秒，RealityLabs认为还是有进一步改进的机会，比如降低深度预测模型的刷新率（30Hz），将节省出的算力用于提升色彩重建的刷新率（72Hz）。

Meta还表示：3D视频透视的质量会受到深度预测结果影响，深度测量模块在大多数情况下可产生合理的结果，但对于几何细节丰富的对象、外观根据视角变化的材质或缺少单眼深度线索等情况，现有的深度测量技术还不够理想。

利用AI重建高质量物理环境

RealityLabs科研人员表示：与以前的方案不同，我们利用深度学习的最新进展，将VST透视作为一种基于图像的神经渲染问题来解决。

无我VR 聚合新闻

NeuralPassthrough的成像过程包含了立体矫正、左右眼像差预测、RGB-D锐化、去遮挡过滤等步骤。也就是说，RGB-D摄像头捕捉到的图像需要经过AI算法调整，才会输出到头显的显示屏中。

除此之外，AI算法首先通过摄像头来识别周围空间的深度，以及空间中的物体，然后又建立了一个与人眼位置对应的合成视角。

无我VR 聚合新闻

NeuralPassthrough的AI算法是利用合成数据训练而成，这些数据包含了80个空间场景的多个视角，可以很好的帮助神经网络灵活的识别周围的空间，而且可兼容不同的相机方案和瞳距。适应不同的瞳距很重要，我们知道瞳距调节一直是VR的一项关键功能，如果透视摄像头的位置是固定的，那么将需要AI算法去调节摄像头视角，以匹配不同用户的眼睛位置。

NeuralPassthrough支持1280x720的分辨率，延迟达32毫秒。对于高质量的VST透视来讲，这个配置其实并不够好。出现这一局限的原因可能与VR一体机算力有限有关。在RealityLabs的研究中，科研人员采用了台式机来为VR头显提供算力，而且为左右眼各采用一个高端显卡来进行渲染。

另外，AI合成算法需要配备更好的深度传感器来优化透视效果。目前，NeuralPassthrough还无法重建环境光反射效果，因此依然会存在伪影。未来，还将利用多帧重建方式来提升空间重建的质量和时间一致性。参考：Meta