我们知道,Meta为了给AR眼镜打造智能助手,专门开发了第一人称视觉模型和数据集。与此同时,该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手,同时结合视觉和声音数据来感知环境,可进一步增强智能助手的能力,比如模拟人类感知世界的方式,来理解声音在空间的传播方式。
Meta表示:在元宇宙社交、AR观影等多种场景中,声音都扮演了重要的角色。为了满足沉浸式AR/VR场景的需求,Meta决定采用AI来实现高保真的音质,并与沉浸的空间逼真匹配。
为此,MetaAI科研人员和RealityLabs音频专家、德克萨斯大学奥斯汀分校科研人员合作,开发了三个专为AR/VR打造的声音合成AI模型:VisualAcousticMatchingModel(视听匹配模型)、Visually-InformedDereverberation(基于视觉信息的抗混响模型)、VisualVoice(利用视听提示将对话和背景音区分)。它们特点是可对视频中人类对话和声音进行视听理解,并与3D空间定位进行匹配,实现沉浸的空间音频效果。
简单来讲,这种AI模型根据外观和声音来理解物理环境。我们知道,声音在不同的物理空间中听起来也会有不同,比如在山洞里你会听到自己说话的回声,而在音乐厅和客厅两种不同规模的空间中,声音传播效果也不相同。这是因为,声音传播路径受到空间结构、材料和表面纹理、距离等因素影响,因此听起来会有所不同。
一,VisualAcousticMatchingModel(视听匹配模型)
在这个模型中输入在任何场景录制的音频片段,以及一张目标场景的图像,便可以将录音片段与目标场景融合,音频听起来就像是在目标场景中录制的那样。比如,可以将洞穴中录制的音频与餐厅图像融合,输出的语音听起来就会像在餐厅中录制的那样。
通常在看一段视频时,如果视频的声音和视觉不匹配(不符合传统认知),会造成不自然的体验,人可以轻易发现这种差异,并认为视频声音为后期配音。
利用声音模型,科研人员可模拟声音在房间中传播产生的脉冲,来重现空间的声学效果。但这种方式需要结合空间3D网格,来测定空间的几何结构、材料属性。在大多数情况下,这些信息并不是已知的,因此声学模型难以实现。
科研人员指出,也可以根据在特定空间中捕捉的音频,通过声音在目标空间中产生的混响,来预测声学特性,但缺点是智能获得有限的声音信息,因此模拟效果通常不够好。
为了解决上述问题,Meta科研人员创建了一个名为AViTAR的自监督视听匹配模型,特点是可通过调整音频,来与目标图像中的空间匹配。AViTAR是一个交叉感知模式转化模型,它可以通过复合模式推理,将输入的视听数据转化成视觉和听觉匹配的高保真数据。此外,AViTAR模型可利用任意网络视频,来进行自我监督训练,练习匹配声音和图像。
Meta为AViTAR创建了两个数据集,其中一个建立在开源AI视听平台SoundSpaces基础上,另一个数据集包含了29万个公开可用的英语对话视频(3到10秒片段)。据悉,SoundSpaces是Meta在2020年开源的AI平台,其特点是建立在虚拟仿真平台AIHabitat之上,可模拟高保真、逼真的声源,并插入到Replica、Matterport3D等开源的真实场景扫描环境中。
这两个数据集主要包含了室内场景中的对话,目的是为了探索未来AI语音和视觉助手在室内的应用场景。细节方案,数据集中的视频拍摄也有要求,麦克风和摄像头在同一个位置,并且远离声源。
为了训练AI模型识别声音和场景不匹配,Meta科研人员还制作了一系列音画不匹配的随机合成视频,并加入噪声。
利用这些数据,科研人员验证了视听匹配模型的效果,结果发现该模型可成功将对话与目标图像场景融合,效果比传统的纯音频声学匹配方案更好。
二,Visually-InformedDereverberation(基于视觉信息的抗混响模型)
和上一个模型相反,Visually-InformedDereverberation(VIDA)专注于消除混响,比如去除声音在洞穴中传播产生的回声。该模型根据视听提示,来优化、筛选音频中的混响。在热闹的火车站场景中,该模型可以提取小提琴演奏的声音,并去除小提琴声与火车站场景交互而产生的回响,好处是可以让小提琴声音听起来更纯粹。
在AR场景重现时,更沉浸、纯粹的声音可以让第一人称观看体验更加保真。
我们知道,回声指的是声源发出声波并到达场景中各表面后反射的现象。将回声、环境音、原声等声音混合并依次进入人耳的过程,则被视为混响。混响、回声通常会降低音频质量,降低人耳感知和分辨声音的能力。比如当你在大课堂给老师录音时,通常也会将同学产生的噪音收录进去。这种混响也会影响语音识别的准确性。
去除混响后,便可以增强声音的重点,帮助自然语言模型更好的识别对话,并生成更准确的字幕。
此前,人们通常直接处理音频来消除混响,但这并没有考虑到环境的完整声学特性。为了提升消混响的效果、更自然增强音频,Meta科研人员提出了搭配视觉分析的方案:VIDA,也就是说利用视觉数据来辅助混响消除。
VIDA模型基于视听数据来训练,可通过识别空间结构、材质和扬声器等线索,来消除混响。
三,VisualVoice(利用视听提示将对话和背景音区分)
VisualVoice模型利用视听提示,来区分对话和背景音,其好处是可以帮助人和AI更好的听清对话,从而提升多人VR社交的沟通效率、实时字幕效果等等。
Meta设想了一个未来场景,即人们通过AR眼镜以第一人称视角,重温沉浸的全息回忆,并获得保真的视觉和声音体验。或是在VR游戏中,空间音频可进一步增强沉浸感。
这个模型同时通过视听数据来分析对话,Meta认为,这项技术是改善人机感知的重要因素。
Meta指出,在复杂环境中,人类可以比AI更好的理解对话,这是因为人不止会用耳朵听,也会用眼睛辅助。举个例子,当你周围有人说话时,你可以用耳朵听到他的声音和声音来源,同时也可以用眼睛来定位这个说话人的具体位置。
因此,MetaAI决定开发一个同时模拟视觉和听觉感知的多模式对话模型,帮助AI更好的分析视觉和语音之间的细微关联。即使使用未标记的视频,也能训练VisualVoice模型提取对话中的视听信息。
未来应用场景
Meta表示:利用这些智能的AI语音分割模型,未来虚拟助手可以随时随地听到你的指令,不管是在音乐会、热闹的聚会还是其他环境音量大的场景。
接下来,若想要为AR/VR构建更加沉浸的体验,将需要这种多模式的AI模型,才能模拟人类感知的方式,通过音频、视频、文本等信号来更好的理解周围环境。
为了继续优化AViTAR、VITA等模型,Meta未来将使用视频来训练AI捕捉空间声学特性。参考: