摘要

民族舞蹈作为民族文化的瑰宝,通常以视频形式保存和传播,为解决由于视频动态模糊造成的误差,提出一种基于HR-Net32和多头注意力机制的MT-Net三维人体姿态估计模型。首先,以ROMP为基础模型并将主干ResNet-50替换为HR-Net32以提高特征提取能力;其次,在支路中插入多头注意力模块,抑制冗余干扰特征,突出舞者肢体,达到对特征的高效筛选;最后,根据奥卡姆剃刀原则,将多条支路设计为相同结构,提高模型训练效率。经实验验证,所提MT-Net模型在3DPW数据集上与ROMP相比,MPJPE和PA-MPJPE分别降低2.1%和3.3%。满足对民族舞蹈进行姿态估计的任务需求。

全文