摘要

手部三维姿态估计旨在基于输入的二维手势图像预测手的三维关节点位置,其在虚拟现实、自然人机交互、自动驾驶等领域有广泛的应用前景.基于单张彩色图像的手姿态估计具有现实应用的普适性但也面临更大挑战.针对手部多关节复杂难建模问题,本文提出了基于双分支的手三维姿态估计框架.所提双分支网络结构的一个分支用于描述同一手指不同关节之间的物理连接关系,另一分支用于描述不同手指相同关节之间的对称运动关系,两种结构互补建模了手关节之间的复杂关联关系.对于每一分支,提出了基于多尺度注意力GUnet和改进语义图卷积的单分支手姿态估计方法,利用手关节的多尺度上下文信息和尺度间注意力提升姿态估计的准确性.本文在公开的STB和FreiHand数据集上进行了系列实验,实验结果表明本文所提方法优于现有的基于单张RGB图像的手姿态估计方法,平均关节误差相对基线方法分别降低了0.6 mm和0.8mm.