摘要

组合动作识别是计算机视觉领域一个新的挑战,它旨在识别未见过的动作与物体的组合。传统的动作识别模型往往会在物体外观与动作类别之间建立联系,引入错误的偏置,在面对未见过的动作与物体的组合时性能急剧恶化。现有解决方法是忽视外观信息,以物体的坐标和身份等信息作为输入,建立以物体为中心的模型。受此启发,提出了时空增强式交互模型。首先在基础网络的不同深度提取并聚合多级别物体特征;然后构建物体分支,使用时空增强模块和物体交互模块分别对物体特征进行增强以及建模物体的移动和交互模式;最终将该分支的输出与基础网络的输出融合用于动作分类,使模型兼顾外观信息和物体交互信息。在多个数据集上的广泛实验证明了所提模型的有效性。

全文