索尼数字人研究：画质超逼真，面部表情与身体动作保持协调

近年来，3D动捕、数字虚拟人等技术受到越来越多关注，它不仅可以应用于电影场景，游戏、社交等领域也开始采用。相比于过去高成本、高门槛的全身动捕技术，现在制作基于动捕的虚拟人越来越容易，不需要过高的成本或是专业技术知识，一些简易、自动化的动捕方案就足够普通创作者使用。

无我VR 聚合新闻

近期，索尼也公布了一项基于机器学习的3D虚拟人和动捕方案，该方案可逼真模拟人类面部表情和行为的3D建模技术，通过忠实重现人类特征，来推动虚拟社交。

索尼指出，数字人是基于真人特征的3D模型，它在虚拟场景中可模拟人的自然外观和行为。近年来，越来越多的企业开始接触数字人技术，并将它用于广告、客服、游戏等场景。当然，并不是所有数字人都能完全还原人的特征，它们的还原程度取决于用途，比如在CG电影中，对于数字人的逼真度会要求更高。索尼认为，随着CG渲染技术不断提升，虚拟化身的质量越来越好，因此恐怖谷问题正在得到解决。

无我VR 聚合新闻

索尼的目标，是开发一种仿佛真实存在的数字人，这种数字人具有存在感，让人感觉它仿佛就在身边。换句话说，就是利用数字技术来复制真人。结合AI算法后，它可以和真人互动，甚至和真人难以区分。其研发重点是突出数字人的个性表达，比如重现人脸皱纹和表情的特征变化，抓住人独一无二的特点。从自然交互的角度来看，索尼也注重数字人的眼神与用户的互动，数字人不会盯着用户，而是模仿人眼和头部自然动作。

数字人核心技术

构成数字人的核心技术包括：无我VR 聚合新闻

据了解，面部动捕技术可准确追踪表演者脸部各部分运动，并驱动CG模型去模拟这种运动。捕捉面部变形数据需要详细的三位信息，才能准确呈现肌肉伸展、收缩，以及由此产生的皱纹等细微运动。

无我VR 聚合新闻

而索尼的方案，简单来讲就是用动捕技术捕捉真人演员的表情，并根据捕捉到的数据生成人脸CG模型，以及面部动态变形效果。此外，无我VR 聚合新闻

在捕捉人脸3D信息时，索尼使用了多台同步的摄像机从多角度拍摄，并推算3D运动信息。不过，部分面部表情变化可能会导致标记检测失败或遮挡，因此该系统还利用光流，以及不同的摄像头角度来提升信息获取的稳定性。

接下来，索尼使用真人表演视频作为训练数据，培训了可精准检测眼睛、嘴唇运动的系统。索尼指出，每一帧动捕的准确性都决定了下一帧的准确性，因此该系统还需要不断完善，提高整体水平。

无我VR 聚合新闻

索尼开始使用头戴式摄像头（HMC）来拍摄演员的面部表情，相比于传统的固定机位拍摄，HMC的好处是可以追随演员，演员无需寻找摄像头，可以更加自由、灵活的运动。索尼表示：捕捉到自然运动的人体姿态后，才能渲染出完整的数字人，因此HMC是捕捉自然运动数据不可缺少的工具。

不过，演员可戴在头上的HMC摄像头数量有限，面部捕捉的角度、覆盖面积比固定机位更少。因此，准确捕捉3D面部数据、识别3D标记则尤为重要。为了训练良好的3D预测算法，索尼使用固定机位和HMC预先捕捉人脸数据，其中包括面部表情、3D标记等等。算法通过这些数据去学习表情和面部运动之间的相关性，后续只需要HMC的数据就可预测3D面部运动，准确性足够接近传统的固定机位方案。