查看
基于文本引导下生成三维手-物交互序列
(
Text2HOI能够通过文本命令执行对象交互操作。由于其简化的设置过程,它的应用范围广泛,横跨各个行业,包括VR/AR、机器人和医疗保健。
由于缺乏标记数据,现有的groundtruth数据集在交互类型和对象类别方面远不能泛化,阻碍了对文本提示中具有正确物理含义的不同3D手-对象交互的建模。为了应对这一挑战,团队建议将交互生成任务分解为两个子任务:手-对象接触生成;以及手对象运动生成。
对于接触生成,基于VAE的网络将文本和对象网格作为输入,并生成交互过程中手的表面和对象之间接触的概率。网络学习不同对象的各种局部几何结构,其中结构独立于对象的类别,所以它能够适用于一般对象。
对于运动生成,基于Transformer的扩散模型利用3Dcontactmap作为强有力的先验,通过从增强的标记数据集中学习来生成作为文本提示的函数的物理合理手-物运动。其中,团队注释来自诸多现有的3D手-物运动数据的文本标签。
最后,研究人员进一步引入了一个手细化器模块,以使物体表面和手关节之间的距离最小化,从而提高物体与手接触的时间稳定性并抑制穿透伪影。
实验证明,与其他基线方法相比,团队提出的方法可以产生更真实、更多样的交互。
总的来说,通过分析用户输入文本,Text2HOI预测与响应于命令对象的手部运动相关的接触点。例如,“用双手递
这样可以在拿起苹果时实现精确的手部运动,并根据苹果的大小和形状调整手部的位置和角度。
从模拟医疗程序到控制游戏和VR/AR中的角色行为,以及促进复杂的科学实验,这项技术的多功能性使其能够集成到不同的领域。另外在机器人领域,Text2HOI通过精确的手部运动控制,为与机器人的自然互动开辟了可能性。
Text2HOI:Text-guided3DMotionGenerationforHand-ObjectInteraction
研究人员对Text2HOI的广泛应用表示乐观,并指出了它在推进VR/AR、机器人和医疗领域的潜力。