此前,青亭网曾报道Facebook训练了一款人脸追踪算法,只依靠普通VR头显上的3颗摄像头就能实现对人脸的实时追踪,用于渲染逼真的VR头像。前不久,Facebook公开了关于这项研究的论文,并详细阐释了如何利用多视点图像转化法,在搭载9颗摄像头的VR头显上训练算法的全过程。
据了解,Facebook在研究中所使用的的逼真头像系统来自于RealityLabs的一个CodecAvatars实验项目,其特点是通过对人脸的动作捕捉,为生成和用户长相几乎一模一样的虚拟头像,并通过人脸追踪对其进行动态面部表情模拟,能够为VR社交带来足够强烈的临场感。
不过该系统还处于实验阶段,距离真正在消费级头显上应用还有一段距离。而现在通过Facebook公开的最新研究来看,将追踪摄像头缩小到3个意味着它距离实际应用又近了一步。
在论文中,Facebook指出传统面部动作捕捉需要使用到戴在头上的多个传感器,而这些传感器所在的位置并不能兼容现有VR头显的设计,因为VR头显遮挡了很大一部分人脸。因此,传统面部动捕仅适用于真人表演,并不适合双向交互的社交场景。
而现有社交VR所使用的头像系统通常使用的都是非写实的卡通头像,而不是逼真的3D人像。而非写实的头像通常能够表达的范围有限,不过好处是面部追踪系统的错误在卡通头像上看着并不明显。
总之,VR头显难以准确捕捉用户面部表情的原因与摄像头传感器的所在位置有关。
首先,由于头显对人脸的遮挡,摄像头传感器通常只能捕捉到部分和非重叠视图,而且视角比较极端和倾斜。在将重建错误最小化后,并不能将捕捉到的视角转化成正确的正面视图。其次,这些摄像头通常采用红外传感,并不能直接转化成虚拟头像所采用的RGB色彩,合成分析的效果也就没那么好。即使是采用支持计算机视觉的传感器,其表现也还是只适合非写实的卡通头像。
因此,Facebook科研人员训练了这样一款深度神经网络,它能够学习从传感器测量到头像参数的复杂映射,并帮助实现对人脸的准确追踪,塑造足够逼真的写实头像。为帮助算法找到传感器与头像参数之间的对应关系,科研人员采用了多视图几何方法来解决倾斜视角以及传感器和头像之间的差异。
在训练算法过程中,科研人员制作了两个不同版本的VR头显,一个是搭载3颗摄像头阵列的追踪头显,另一个是搭载9颗摄像头,用于对应传感器与虚拟头像的训练头显。追踪头显上的3颗摄像头是头显自带的红外VGA摄像头(追踪左眼、右眼和嘴),而训练头显上的额外6颗摄像头则分别为左右眼、嘴提供额外视角。接着,科研人员将所有摄像头同步,均设置为捕捉90Hz刷新率影像。
为了建立自然表情数据集,科研人员用两台VR头显对每个目标表情各拍摄一次,总共捕捉73种表情、50句话、一系列动作和眼神方向,以及10分钟自由对话。
完成算法训练后,科研人员进行了一个模型简化测试,用于测试多视点风格转换、分布匹配、交叉视角一致性、可感知背景的可辨渲染等部分的重要性。并对比9颗摄像头和3颗摄像头的不同方案,比如:取消风格转化,只使用坐标和边缘匹配,或者拿掉多余摄像头,只使用3个追踪视角,甚至不匹配头显位置,只采用平均头显姿态来渲染风格转化数据。
最后结果发现,仅使用普通VR头显上的三颗摄像头,也能实现在近距离对人脸的准确追踪。即使VR头显对人脸产生遮挡,算法依然能准确重建人脸表情。
尽管减少了人脸追踪所需的摄像头,但由于该头像系统还需要提前用动捕技术来捕捉用户的面部结构,而且还需要提前训练算法,它距离进入主流市场依然还有一段距离。不过,随着传感技术和人脸的自动修正重建技术得到优化,在未来还是有望看到在家里就能使用的虚拟头像系统。本文系青亭网翻译自: