摘要

针对Transformer应用于密集视频描述时,历史文本特征会对后续文本生成产生干扰,难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰,提出改进的密集视频描述Transformer译码算法(D-Uformer)。该算法利用前馈神经网络(FNN)增强历史文本特征表达,通过跳跃连接构建删除冗余支路和增强补足支路,利用减法降低历史文本特征过度聚焦导致描述不准确的影响,提高模型对输入视频特征的关注度,同时,利用加法弥补特征传递过程中丢失的上下文信息,生成准确且连贯表达当前视频内容的描述语句。在ActivityNet和Charades数据集上的实验结果表明,D-Uformer算法的描述性能提升明显,与视频多样性描述网络(TDPC)相比,准确性最高提升4.816%,多样性最高提升4.167%,生成的描述不仅更贴合视频内容,且更符合人类语言习惯。