摘要

密集视频描述是在一段长视频中生成多个具有时间标记的描述。目前的模型大多使用两阶段的方法效率较低;忽略音频及语义信息,描述结果不全面。针对上述问题,提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法(MSTVC)。提出自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,提出了多尺度可变形注意力模块(MSDT),应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果证明,模型在两个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。

全文