对于未来的AR/VR社交场景,多样化、定制化的头像系统至关重要。目前,生成个性化头像的简易方案并不够逼真,而且撞脸的可能性较高,而逼真的3D头像方案通常需要利用线下的大规模容积摄影/动捕工作室,成本较高,因此使用者主要为企业级用户。
那么为了打开AR/VR社交市场,降低生成逼真3D头像的门槛很关键。近期,俄罗斯Skoltech的学者研发了一种基于手机摄像头的“可动态打光”移动3D头像捕捉方案,其特点是使用简单,而且效果逼真,更重要的是可动态模拟不同角度和环境条件中头像的变化。据悉,该方案无需LiDAR等高成本硬件或特殊的打光,只需要一部智能手机即可。
与现有的一些基于静态打光生成3D头像的方案相比,“可动态打光”方案将具备逼真的动态光影信息,在虚拟环境中可实时调整亮度和阴影,就像是人脸在真实环境中所成像的动态特性。因此,该方案生成的3D头像的表情和姿态看起来更有生命力,不会打破AR/VR的沉浸感和逼真感。
科研人员表示:随着手机等2D计算界面普及,也同样带动了移动摄影的发展。而随着VR/AR头显、3D显示器慢慢普及,3D摄影将有望成为一个有趣的研究方向。未来,这个2D视频转化成3D头像的算法,将有望解决VR社交面临的一个关键挑战。
在论文中,科研人员描述了整个基于神经算法的图像处理过程:
用智能手机从多个角度拍摄两个人像视频,一个开启闪光灯,一个未开启闪光灯。模特在拍摄过程中保持不动,手机环绕模特拍摄到的图像将平均分为100个视角,科研人员在每4个视角之后会插入一个持续的定向光源(摄像头闪光灯),同时捕捉到的100个视角图像分辨率分别为3000x3000,采用HDR形式,足够清晰生动。
手机中的运动建模算法会将捕捉到的图像数据转化成粗糙点云结构,接着通过多角度降噪,生成代表3D头显的几何图形。然后,利用深度渲染网络去复原人脸的反射率、法线、环境光地图,用于生成和模拟各种视角下光线的变化。
通过一系列处理,代表人脸的几何结构将转化成可动态打光的3D头显模型,可模拟多种不同视角和光线环境中面部色彩和亮度变化。
细节方面,动态打光的方案通过手机闪光灯实时打光,也就是说用手机以360°围绕被拍摄者,与此同时手机的闪光灯也会按照一定频率闪烁,为3D建模提供足够的光线信息。
接着,手机摄像头捕捉到的图像会转化为点云数据,利用基于神经点的图形算法来实现3D重建。结合SFM算法和每一帧的摄像头方位信息,接着重建密集点云模型,在通过深度分割网络过滤点云,将3D头像/前景从每一帧图像中分割出来。在经过训练后,神经网络在接收到点云数据后,即可生成光栅化的独特摄像头视角,并预测不受光线改变的特征,并与可动态打光的图像融合。
注:SFM算法是一种基于各种收集到的无序图片进行3D重建的离线算法,也就是从运动中(不同时间拍摄的图片集合)重现物体的3D结构。
也就是说,利用深度神经网络处理视频图像,并根据室内光预测反射率、阴影等亮度相关的人脸特征,然后将这些预测的亮度地图用于对人脸视频影像的重新打光。如此一来,可模拟不同环境光下人脸亮度和阴影的变化。
在虚拟环境中,你可以通过各个方向的模拟光源或环境光源来调整3D头像的明暗,调整视频环境的光线。此外,为了避免恐怖谷效应,这项头像算法并不会模拟嘴唇动作或面部表情变化。
Skoltech计算机视觉小组负责人、副教授VictorLempitsky表示:基于神经点的图像算法可处理多样化的几何图形,包括常见的多边形网格等等。用多边形网格代表3D模型的好处在于渲染速度快,但是难以模拟薄或直径小的物体,如:头发、手指、布料等等。与此同时,点云图像也有相似的问题,其通过像素点来模拟人脸光影变化,但受密度原因影响,可以看到一些无色的小洞。
科研人员发现,结合基于点云的图像和神经渲染,有望解决上述问题,神经网络可以在渲染过程中链接点云数据,让3D头像表面更平滑。
未来,Skoltech的计算机视觉小组计划将该算法用于生成可动态打光的全身3D建模,应用场景包括VR、3D可视化等等。
Skoltech科学和工程小组的高等数据分析负责人兼副教授EvgenyBurnaev表示:利用简化、低成本的硬件就能快速完成复杂的3D扫描任务,这将有助于利用3D模型保存文化遗产,生成的3D模型还可以发布到网页端,吸引更多人在线上学习历史文化。参考: