编译/VR陀螺
微软发布VASA-1,官网介绍道:只需使用单张人物肖像照片+一段语音音频,即可实时生成高仿真的数字人讲话视频,唇部动作、面部动作和头部运动都与音频内容同步,其表现高度自然协调。
微软表示,这是一个新的框架,可以在给定单张静态图像和语音音频的情况下,生成具有吸引人的视觉情感技能(VAS)的逼真的虚拟数字人说话视频。
2024-04-19 18:10:32来源:VR陀螺
编译/VR陀螺
微软发布VASA-1,官网介绍道:只需使用单张人物肖像照片+一段语音音频,即可实时生成高仿真的数字人讲话视频,唇部动作、面部动作和头部运动都与音频内容同步,其表现高度自然协调。
微软表示,这是一个新的框架,可以在给定单张静态图像和语音音频的情况下,生成具有吸引人的视觉情感技能(VAS)的逼真的虚拟数字人说话视频。
原文链接:https://www.vrtuoluo.cn/539725.html
来源媒体:VR陀螺