Facebook 50年征途：Oculus Avatars的起步、演变与未来

查看引用和消息源请点击：映维网

“对于接下来要实现完整虚拟化身的任务，我们现在感到无比兴奋。”

（映维网 2019年04月04日）Oculus已经正式推出了全新的Expressive Avatars和Avatar Editor，希望可以进一步为用户带来更具表现力的VR社交体验。这家公司的目标是是：支持VR中人与人的有意义交互，无论彼此身在何方。

延伸阅读：Facebook：AR/VR是未来五十年的征途
延伸阅读：Facebook 50年征途：Codec Avatars，创造逼真虚拟角色

自2016年推出Oculus Platform以来，Oculus就致力于通过Oculus Touch等硬件优化和Rift Core 2.0等平台更新来强化虚拟现实中的社交临场感。对于这一次的Oculus Avatars系统升级，Facebook日前撰文描述了社交临场感的艺术与科学。以下是映维网的具体整理：

无我VR 聚合新闻

我们在过去数十年间见证了一次又一次的计算进步，但虚拟世界的沉浸感水平没有太大变化，仍主要停留于二维显示屏，并以鼠标或控制器作为输入。

作为对比，虚拟现实硬件正越来越能够将人体运动直接转换为计算体验，并通过头显来闭合动作感知反馈循环的方式具现体验。当你只需环顾四周即可调整对周遭世界的感知时，体验的沉浸感将能进一步加强，仿佛这就是真实。再利用精确追踪的运动控制器，你可以看到在虚拟世界中感知自己的双手并与其中的对象进行交互。这时，临场感就将越发凸显，亦即身临其境的感觉。

对于VR体验，如果可以利用虚拟化身实现实时的言语社交和非言语社交，你将越来越接近真正的社交临场感，仿佛对方真的就在身边一样。

只需非常小的输入，你都能感觉自己能够与对方建立联结。借助头显和双手控制器的位置追踪，相隔一方的用户可以在共享式虚拟环境中协作，并且感觉大家都是置身于同一个房间之中。我们非常容易接受彼此的行为线索，如肢体语言。我们可以推断出某人是否正在全神贯注倾听自己的讲话，而通过最微妙的头部动作，我们能够体验仿如现实世界般的社交规范。

随着虚拟化身的渲染正变得越来越细致入微（增加了眼睛和嘴巴，以及身体模拟），现在的挑战已经变成再现行为线索的细微差别。要通过今天的VR硬件实现所述目标，这意味着无需任何额外面部摄像头或身体追踪即可实现高度的社交临场感，所以我们必须将高质量的头部和双手动作追踪与行为和表达模拟相结合。如果能够做好，你的社交临场感就会提升。当虚拟化身的感知质量与真实意图出现脱节时，你会感到非常不和谐或不舒适。

于2016年组建的Oculus Avatars项目旨在解决实现VR临场感的一系列挑战，并把相关的技术带给希望构建VR社交体验的开发者。

1. Oculus Avatars的开始

无我VR 聚合新闻

Oculus Avatars项目从Toybox发展而来，后者于2015年开发，是Oculus构建的首批体验之一。除了演示了VR头显的位置追踪之外，Toybox同时展示了双手追踪的价值，可以支持用户抓取对象，而且更重要的是，能够允许你在VR中通过手势进行交流。

在开发Toybox的过程中，我们意识到一个简单的人类表现形式（代表头部和手部的方框）都足以呈现人体语言的众多细微差别。事实上，一位测试者表示自己只需三个简单的形状就能够识别配偶。她说道：“他就是这样耸肩的。”

当我们迭代这个演示内容时，我们选择了一个简化的头部和手部，并发现即便是最简单的信息（如鼻梁方向）都可以有力地吸引他或她的注意力，并增强共享VR中的通信体验。

我们同时很快意识到，如果没有复刻我们所熟悉的人类情感的细微差别，你所创建的一切都会感觉非常别扭，并且减损虚拟现实世界的沉浸感。能够看到双手精确匹配运动显然非常具有沉浸感，但如果手肘的模拟不正确，你的大脑就会马上高呼：“我的手肘可不是这样摆的。”

我们正在努力实现本体感（身体各部分相互之间的内在感觉），并且明白到在没有摄像头或控制器追踪的情况下实现精确模拟的重要性。

我们同时看到为用户提供逼真的类人表达存在巨大的价值。在虚拟现实里面，你可以成为任何人，而这是一种强有力的个人表达形式。我们希望创建的系统可以允许用户自定义虚拟化身的外观，并在可用于无数的社交VR体验。另外，这样做有助于为开发者提供快速将个性化虚拟化身带到社交体验中的工具和内容。

2. Oculus Avatars的演变

经过数十年的发展，电子游戏已经拥有了逼真的，可定制人类。所以这个任务应该很简单，对吧？

事实并非如此。当你在传统的多人游戏中看到另一个玩家时，你通常不会期望这个角色会完全以人类的方式移动，因为你知道它是由一个坐在沙发，并拿着游戏手柄的玩家进行控制。

在虚拟现实中，当你看到一个以非常类人方式移动的逼真虚拟化身时，大脑就会开始分析它，而你会意识到哪里不对劲。你几乎可以认为这是一种进化的防御机制。我们应该警惕移动方式类似于人类但行为表现又与我们不同的事物。

我们发现，人体皮肤非常难以“伪造”。当我们说话时，皮肤会拉伸至颧骨，并且出现微妙的颜色变化。要以令人信服的方式再现所有这一切非常有挑战性，特别是VR体验已经对计算性能提出了严格的要求。

正确的眼睛和嘴巴运动同样重要。在说话时，眨眼和下颚运动并不足够，还需要眉毛，脸颊和嘴唇等其他社交线索。它们都属于非语言行为，而且如果没有面部追踪摄像头，你很难进行模拟。

正是因为这样的挑战，我们Facebook Reality Labs的团队发明了全新的技术，并致力于在未来十年内实现更逼真的虚拟化身。

但在缺乏成熟技术的情况下，我们在一开始采取了抽象化的方法。降低虚拟化身的类人性，并且打破用户对现实主义的期望。Facebook Spaces的一名同事尝试用卡通风格来实现完全清晰的眼睛，嘴巴和手臂模拟，从而避免恐怖谷效应，或加剧模拟和追踪行为的不连续性。

与此同时，我们发现更强逼真感的价值。如果以更加类人化的比例和形式呈现虚拟化身，用户会自然而言地理解某人所占据的空间。鼻梁的独特形状可以表明注意力所在，并促进对话互动。现实主义开启了在情景中应用虚拟化身的用例，如VR商务会议，而卡通化形象并不适合这类情形。

对于2016年推出的Oculus Avatars，我们开始利用体三维式的和雕塑精确的人体形象，通过单色纹理抽象化感觉像是皮肤的一切。我们对无法逼真模拟的区域进行褪色处理或完全覆盖。所这一切都是为了弱化它们，并将注意力集中在可以通过硬件追踪的头部和手部运动。

无我VR 聚合新闻

进入2017年，我们在研究如何优化虚拟化身时开展了长时间的用户研究和设计实验。许多人喜欢科幻风格的虚拟化身，但更多的人渴望自由选择肤色和头发颜色，从而在VR中表达更加个性化的自己。

大多数人更加希望看到的是，眼睛和嘴巴的精确模拟运动，从而令VR中的交流变得更加真实和有意义。我们通过非常简单的嘴唇动画取得了一定的成果，但在一个接一个的实验中，将眼睛添加至单色的虚拟化身始终非常奇怪。

为了提供更丰富的社交形象，我们需要拓展视觉风格。

这意味着团队需要解决一些非常艰巨的挑战。我们需要在没有摄像头的情况下模拟眼睛和嘴巴的运动，并且要以过于关于逼真感形态的经验教训作为基础，同时视觉处理又要兼容开发者通过Oculus Avatars SDK构建的各种体验。

我们还必须发明新的方法来衡量任何变动对系统造成的影响。我们与伦敦的用户研究团队合作，创建了一个可扩展的框架，并用来评估自我临在和社交临场感的多个维度的虚拟化身风格和行为。这允许我们更能把握我们是否在朝正确的方向前进。

当我们为最终的改动进行准备时，我们很快就发现，过度索引过度行为现实主义或视觉现实主义很快就会导致不舒适，甚至是恐怖谷效应的人际交往体验。一个缺乏超逼真面部表情的超逼真虚拟化身感觉非常不和谐。这是关于平衡艺术和科学的一个例子。

3. 虚拟化身背后的科学

我们首先从科学开始。我们很早就明白，如果没有面部追踪技术，我们重新创建眼神交流和面部表情的能力将代表着我们可以达到的可信度上限。理解这一上限有助于我们判断需要通过虚拟化身的外观来传达什么样的现实主义。

我们通过将脸部分成几个不同的组成部分（言语，凝视，眨眼），然后再加之以我们对面部和肢体语言的更全面理解，从而确保一致的表现。

幸运的是，我们不是第一批尝试探索人类表达原理的团队。

4. 眼睛：通往灵魂的窗户

业界已经存在大量关于眼睛运动的学术研究，涵盖眼睛在注视移动对象或将注意力从一个对象转移至另一个对象时的行为。不自主眨眼动作实际上是一种保护性动作，它能使泪水均匀地分布在角膜和结膜上，以保持角膜和结膜的湿润，眨眼动作同时可以令视网膜和眼肌得到暂时休息。如果你环顾四周，眼球将更多地暴露在空气中，所以你眨眼的可能性更大。科学家同时注意到，当说完一个句子时，你会更频繁地眨眼。

我们能够为VR编写这等行为模型，然后再调整它们，因为我们意识到对于佩戴头显，这实际上会令虚拟社交环境中的用有着不同的行为表现。

凝视建模是一个例子：人类通常会在舒适的眼球运动范围内感知周遭环境，你在转头之前倾向于将眼睛向左或向右移动约30度头。如果是用眼角进行斜视，只需数秒钟就会感到非常不舒服。

但在佩戴VR头显时，我们观察到这个范围减少到大约10度。随着视场的减少和视觉清晰度的降低，用户会更多地转头。

这使得我们稍微更容易根据头部方向来预测用户的凝视方向，以及用户的视线是落于何物或何人身上，从而令我们更有信心模拟逼真的眼睛行为。

无我VR 聚合新闻

5. 会说话的头

为了表征嘴巴行为，我们同样阅读了数十年来的研究和大量的数据，因为不同的嘴巴行为可以形成不同的声音。利用我们最新的Oculus Lipsync功能，我们能够通过语音来派生视素：塑形你的嘴巴，从而形成言语。

但是，你的嘴巴会以非常复杂的方式运动。制作一组嘴巴形状的动画尽管可以非常准确，但感觉人工痕迹相当明显。所以我们不得不思索，如何以一种令人感觉舒适的方式来塑造面部肌肉收缩和放松的模型。我们同时邀请了语言学和面部标记方面的专家来帮助我们。

在这种情况下，重点是事件顺序。当声音通过嘴唇之前和之后，你都会移动它们以形成单词。在声音离开嘴巴，进入麦克风并解码为视素之前，我们应该如何模拟幕后发生的事情呢？

一种选择是，因为社交VR关乎相隔一方的用户进行通信，所以我们可以利用这一点，并且延迟音频，从而使得我们能够制作视素动画。但这样做会加剧视频会议或长途电话时常见的挫折感，并导致更糟糕的社交体验。

我们显然希望不惜一切代价避免这种情况。所以我们开始思考，当把多个声音链接在一起时，嘴巴的运动方式又会如何。我们发现，通过控制单个口部肌肉移动的速度，我们可以逼真地将每个声音和运动之间的中间嘴形建模为下一个声音。我们将这种技术称为“差异插值”（设定每个肌肉在两个不同位置之间移动的距离极限），而这产生了感觉更少重复，更连贯，并且更可读的嘴巴运动。

6. 表达你自己

最后，由于明确理解了应该如何渲染嘴巴和眼睛的行为，我们开始研究如何更好地描述对应语音的运动。我们发现，单凭眼睛和嘴巴的动作，虚拟化身感觉非常生硬，尤其是在不说话的时候。

无论是眼眶和脸颊周围的轻微收紧，嘴巴和眉毛的周期性抽搐，或者甚至只是行动方式的微妙不对称，我们的脸部总是在不断运动。这种微表情是逼真面部的基础层。由于它们中的大多数似乎是随机发生，所以我们能够将这些元素添加到脸部模型，并令其感觉更加动态和生动。

我们越是分析人类交互的信号，我们就越能意识到我们可以用于建模或训练数据的常见模式。我们可以追踪语调的突然变化和头部运动的剧烈抽动，但伴随的眼睛睁大和眉毛抬起是当今硬件所无法推断的事情。尽管我们只是触及了这些行为的表面及其触发因素，但我们已经明确了接下来的工作。在接下来的数个月时间里，我们可以通过新功能来更新系统，例如瞳孔扩大和收缩，或者实现彼此之间能够进行眼神交流的虚拟化身。

不过，我们采取了更加克制的方法来表达情绪状态。因为我们意识到，如果缺乏相应的情景数据，我们需要非常谨慎地预测和模拟用户的情绪状态。所以，我们同时探讨了支持用户触发虚拟化身的面部情绪，并且发现如果你要求用户按下“愤怒”按钮才能表达愤怒情绪，这可能会破坏自然的对话（更糟糕的是，用户可能会无意识地按下这个按钮）。

无我VR 聚合新闻

7. 虚拟化身的美术发展

随着我们开始规划更具表现力的虚拟化身，我们不得不考虑如何根据更多的行为现实主义来提升美术风格。

我们从2017年开始这项工作，并在2017年10月举行的OC4大会发布了新版虚拟化身的风格，同时通过视频演示展示了早期样式。

无我VR 聚合新闻

随着我们不断加深对行为模拟的理解，我们同时也在寻找能够在模型雕塑和渲染中实现可信度的方法。

我们做的第一件事就是观察电影和游戏角色，并建立一个从卡通到抽象，再到高度逼真的频谱。通过实验，我们发现随着虚拟化身在雕塑保真度方面变得越来越逼真，纹理越来越成为恐怖谷效应出现的一个显著因素。相比之下，对于更抽象或更夸张的面部形状，纹理的重要性越发降低，因为的恐怖谷效应已经在不同的频谱中大大减少。我们可以通过纹理和阴影来令逼真的面部看起来不那么真实。

考虑到迄今为止的经验，我们认为可以利用雕塑方面更为精确的形式，但同时用纹理和阴影来防止它过于逼真，从而令我们有信心匹配我们可以模拟的行为保真度。我们的目标是，创建足够类人的虚拟化身，允许你理解和感知相关的生理特征和面部行为，但又不是过于类人，不会令你纠结于皮肤应该起皱和放松的方式（因为非常难以模拟）。

计算成本同样是一个重要的考量因素。对于Oculus Go和Quest，我们需要为移动芯片带来富有表现力的虚拟化身。我们已经能够将250个虚拟化身塞进Oculus Venues之中，所以对于每一个添加至面部的顶点我们都是非常小心。

法线贴图已经能够极大地帮助将高质量的PC网格移植到移动设备。但随着嘴部运动的增加，我们不得不完全重塑虚拟化身的面部，并在可拉伸和折痕的区域优化保真度，如嘴部，眼脸和眉毛周围，并且降低对静止区域的关注，如牙齿，眼球和耳朵等等。

无我VR 聚合新闻

最后，我们花费了数周时间来迭代纹理和着色器，确保在原来虚拟化身中打磨的众多质量在过渡至新风格时不会丢失，比如用于增强面部可读性的微妙边缘照明。

我们在2018年举行的OC5大会演示了最终的结果，而且现在已经向所有的Oculus用户开放。

8. Oculus Avatars的下一步？

以上是我们迄今为止所走过的路程。对于接下来的计划，我们有兴趣钻研完整的全副身体。

无我VR 聚合新闻

我们已经看到用户为自己的虚拟化身投注了大量心血，选择了一系列不同的休闲或幻想装饰。一个完整的具身形象将支持人们创意地表达自己，并且允许我们实现越来越丰富，越来越完整的社交临场感。

但要做到这一点，我们需要解决一系列的难题，例如：

如何解释在用户就座但虚拟化身站立时的运动
如何平衡精确追踪的头部和手部运动，以及臀部和膝盖的模拟运动。我们不仅要做到正确和自然，而且要足够灵活，因为情景可以从坐在沙发到靠在桌球桌，再到弯腰拾起箱子。
如何校准某人的实际体积及其期望的体积，从而确保虚拟化身能够以协调的方式与对象交互，并且设计一个可容纳不同体形的衣柜。
如何在无需复杂模拟的情况下匹配服饰装饰和面部逼真度。
…

早在2016年，我们就决定要避免自己不确定的事情，只展示我们确信的事情。自那以后，我们不仅了解到我们的硬件可以帮助我们更有信心地模拟逼真的行为，而且还发现机器学习，以及易于理解的先验技术可以把细微信号转化为出色的社交临场感。

对于接下来要实现完整虚拟化身的任务，我们现在感到无比兴奋。

Facebook 50年征途：Oculus Avatars的起步、演变与未来最先出现在映维网。