改进的密集视频描述Transformer译码算法

杨大伟; 盘晓芳; 毛琳; 张汝波

摘要

针对Transformer应用于密集视频描述时，历史文本特征会对后续文本生成产生干扰，难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰，提出改进的密集视频描述Transformer译码算法(D-Uformer)。该算法利用前馈神经网络(FNN)增强历史文本特征表达，通过跳跃连接构建删除冗余支路和增强补足支路，利用减法降低历史文本特征过度聚焦导致描述不准确的影响，提高模型对输入视频特征的关注度，同时，利用加法弥补特征传递过程中丢失的上下文信息，生成准确且连贯表达当前视频内容的描述语句。在ActivityNet和Charades数据集上的实验结果表明，D-Uformer算法的描述性能提升明显，与视频多样性描述网络(TDPC)相比，准确性最高提升4.816%，多样性最高提升4.167%，生成的描述不仅更贴合视频内容，且更符合人类语言习惯。

出版日期2023
单位机电工程学院; 大连民族大学

收藏分享被引浏览

更新时间：2024-01-10 10:23

改进的密集视频描述Transformer译码算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友