迪斯尼研究所和几所大学的研究人员共同撰写的一篇论文,描述了一种基于深度学习的程序语言动画的新方法。该系统对人类语音的音频进行采样,并将其用于自动生成与声音匹配的动画口型。该方法可以增加动画制作的效率,还可以用于虚拟现实的社交场合,让虚拟化身的互动更有说服力。
这篇论文由迪斯尼研究所、东安格利亚大学、加州理工学院和卡内基梅隆大学的研究人员共同发布,题目为“广义语音动画的深度学习方法(A Deep Learning Approach for Generalized Speech Animation)”。这篇论文描述了一种经过“深度学习/神经网络”训练的系统,该系统使用一个 8 小时的演讲参考画面(2543句话)来教会系统在不同的语音单元(术语为音素)和其他组合的情况下,口型应该呈现什么样子。
右边的脸是参考画面,左边的脸是由系统生成的(在视频训练之后,仅仅是输入音频)
训练后的系统可用于分析任何说话者的声音,并自动生成相应的口型,然后将其应用到动画的面部模型中。研究人员说,这个系统不针对特定的人且可以用于其他语言。
我们引入了一种简单而有效的深度学习方法来自动生成自然的语音动画,使之与输入语音同步。我们的方法是使用一个滑动窗口预测器,它可以从音素标签输入序列中学习任意的非线性映射,从而精确地捕捉自然运动和视觉上的协同效应。我们的深度学习方法有几个吸引人的特性:能够实时运行,最少的参数调优,对新的输入语音序列能够进行很好的概述,容易创建风格化和情绪化的语音,并且与现有的动画重定向方法兼容。
创建一个与音频口型相匹配的 CGI 角色通常是由熟练的动画师手工完成的。虽然这个系统不能满足制作 CGI 所需的高保真语音动画,但它仍然可以用于一些保真度没那么高的动画,比如大型角色扮演游戏中的人物对话,或是一些低预算,不足以聘请动画师的动画项目(教学/培训视频、学术项目等)。
在 VR 的情况下,系统可以通过用户的声音实时匹配虚拟化身的口型,让虚拟化身更加逼真。使用光学进行嘴部跟踪无疑是用于虚拟化身最精确的方法,但在跟踪硬件未普及之前,像这样的语言动画系统可以说是一个很好的过度品。
一些社交 VR 应用已经在使用各种系统进行动画口型同步,Oculus 还为 Unity 提供了一个唇形同步插件,其目的是基于音频输入对虚拟化身进行口型匹配。然而,这个基于深度学习的新系统,在语音动画中提供了比我们目前所见的其他方法都要高得多的细节和精确性。