查看从有环到无环
在过去,VR控制器的一个标志是巨大的圆形灯环,这是因为当时的设计考量是通过头显对控制器进行光学追踪以确定控制器的位姿,所以控制器必须搭载红外LED。为了提高追踪精度和范围,控制器需要采用巨大的圆形灯环设计。
PICO给出的答案
得益于研究人员的努力所带来的技术进步,PICO已经能够实现无灯环的小手柄设计。
Centaur多模态融合算法
Centaur的命名灵感来自于提供小但更精确推力控制的半人马座火箭,而团队期望控制器实现算法能够足够轻量,但又能精确地完成任务。
对于这一点,PICO组建了一个跨部门的攻关小组,包括交互感知内部的手柄追踪算法团队、裸手追踪算法团队和交互数据团队。经过多次论证后,团队设计了一套基于神经网络的多模态手柄追踪框架。
全方位自研软硬件基建
实际上,PICO已对Centaur多模态融合算法申请了专利保护,而团队表示,他们在交互算法技术积累和布局领先行业,并且是目前国内布局最早的厂商。相关负责人表示:“光学追踪和裸手追踪两大类算法,经历了PICONeo3和PICO4两代产品的打磨,对用户需求更了解,技术广度和深度有足够的积累。这两大类追踪算法,从追踪框架上不是独特唯一,也不是最先研究的。但是将他们融合起来,产品化上截至目前团队是第一个。”
以上成果离不开PICO覆盖数据生产平台和测试平台等的全方位自研软硬件基建支持。
在包含相机阵列与仿真系统的数据生产平台方面,由于数据需求的维度是多样化的,既要保证足够高的精度,又需要有充分的场景覆盖丰富度,而每一类的数据方案都有自己的优势与不足。所以,PICO在数据生产上也提供了多套技术方案,如相机阵列的真实采集与仿真合成平台方案。
为了生产高精数据,PICO在小手柄裸手姿态数据的高精标注任务中,一方面采用了自研的业内领先的基于相机阵列的多视角手部姿态标注技术方案,另一方面针对该特定任务进行预重建进一步提升了手部姿态数据的精度。多种方案有力保障了AI训练数据的支撑。
HaMuCo:HandPoseEstimationviaMultiviewCollaborativeSelf-SupervisedLearning
近些年来,3D手部姿态估计的研究取得了显著的进展,然而这些进展很大程度上依赖于大规模带有3D标注的数据集。构建这样的数据集是一个费时又费力的过程。为了避免对3D标注的依赖,本研究提出一种全新的手部多视角协同自监督学习方法HaMuCo,该方法利用可学习的跨视角交互网络对单视角网络进行监督,从而在标签噪声较大的情况下,稳定地实现有效的自监督训练。
HaMuCo采用两阶段的网络结构,包含单视角网络以及跨视角交互网络。单视角网络使用基于模型(MANO)的方法来提供手部先验知识,从而在仅基于带有噪声的伪标签训练的基础上得到相对鲁棒的手部姿态估计结果;并为多视角网络提供多种丰富有效的手部特征。
跨视角交互网络首先利用每一个视角提供的手部特征构建多视角图结构特征;其次,利用双分支跨视角交互模块进行多视角的特征交互,从而使每一个视角可以捕获其他视角的互补特征来回归出更准确的3D手部姿态估计结果;最后对跨视角交互模块的输出结果进行多视角融合,用更准确的融合结果对单视角网络进行自蒸馏。由于缺乏准确的标签监督,本研究设计了两种多视角一致性损失函数来引导跨视角网络的自监督学习。
本研究通过大量实验验证了HaMuCo中的各项设计均对手部自监督学习有正向效果;同时该方法可以应用于多种场景(有/无外参,单/多视角),且在各种场景下的自监督表现均优于现有方法。此项工作还获得ECCVHANDS22Challenge第一名。
相关论文:
DecoupledIterativeRefinementFrameworkforInteractingHandsReconstructionfromaSingleRGBImage
紧密交互的双手三维重建是一个极具挑战性的任务。一方面,对于紧密交互的双手,双手关节点之间具有多样的空间依赖关系,手部姿态的解空间复杂,这显著地增加了手部姿态预测的难度;另一方面,双手局部外观相似性高并且紧密交互双手之间往往存在严重的互遮挡,网络提取的视觉特征易混淆,这导致重建的手模型与图像的不对齐问题。
为了解决这些问题,团队提出了一种解耦合地迭代修正框架(DIR),能够同时实现精确的手部姿态预测和图像对齐。DIR构建了一个二维视觉特征空间和一个三维节点特征空间。DIR在三维节点空间中进行短距-长距双手关系建模,在二维视觉特征空间中进行局部视觉特征去混淆。
DIR通过二维和三维之间的空间映射关系,以节点特征为媒介沟通这两个空间,实现迭代地特征增强和手部姿态修正。DIR在目前最具挑战性的双手数据集上实现了远超SOTA的手部重建精度和像素对齐效果;同时,DIR在不需要虚拟数据辅助训练的情况下,表现出了强大的泛化能力。此工作入选ICCV2023Oral。
相关论文:
ReconstructingInteractingHandswithInteractionPriorfromMonocularImages
相比于单视图的单手重建任务,从单视图中重建双手面临更大的挑战,因为单视角固有的歧义性以及双手具有相似的外观、自遮挡严重等问题,要从单视角输入图像中准确地定位每个关节的位置是一项具有挑战性的任务。为了解决这些问题,团队提出了一种全新解决问题的路径:首先构建了一个双手互动的先验,将互动重建任务定义为从这个先验中进行条件采样的任务。
双手互动先验的成功构建来源于两方面:团队基于MoCap系统,构建了一个大规模的双手交互数集,获取交互双手的MANO参数模型;利用这些数据,团队构建了基于变分编码器的双手交互先验网络,包括均值编码模块、方差编码模块和重采样模块等用于预测均值和方差,并在重采样后通过解码器输出期望的交互结果。
最终,团队利用ViT提取单视角图像的特征,并充分融合其交互先验的相关性,最终获取双手重建的SOTA结果。在双手交互重建方面具有巨大的潜力,将为AR/VR领域的发展提供重要的贡献。
相关论文:
RealisticFull-BodyTrackingfromSparseObservationsviaJoint-LevelModeling
在VR/AR场景下更自然和准确地驱动数字人有益于给用户带来更加沉浸式的体验。在VR/AR场景下,最容易获取的输入是头戴设备和手柄的跟踪信息。通过这些有限的跟踪信息来驱动数字人是一个受限且极具有挑战的任务。对此,本研究提出了一个能够建模关节点相关性的两阶段框架,从而基于三个跟踪信息序列回归出准确、平滑和合理的全身姿态序列。
在第一阶段中,该方法先通过多层感知机得到初始的全身关节点信息,并基于此信息和输入跟踪信号构建关节点级别特征序列(包括:关节点位置特征、关节点旋转特征以及输入特征)。
在第二阶段中,该方法将关节点级别特征序列输入时空Transformer中捕获关节点之间的时空关系,从而得到更准确的全身姿态序列结果。
此外,该方法利用了多种损失函数(手部对齐损失函数,动态相关损失函数以及物理相关损失函数)来在这样受限的任务中更好地训练此两阶段框架。
最终,通过在虚拟数据集(AMASS)和实采数据集上的大量实验均证明了该方法可以取得比现有方法更好的准确率、平滑性以及物理合理性。