基于Transformer网络多模态融合的密集视频描述方法

李想; 桑海峰<sup>*</sup>

doi:10.16182/j.issn1004731x.joss.23-0017

摘要

密集视频描述是在一段长视频中生成多个具有时间标记的描述。目前的模型大多使用两阶段的方法效率较低；忽略音频及语义信息，描述结果不全面。针对上述问题，提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法（MSTVC）。提出自适应R(2+1)D网络提取视觉特征，设计了语义探测器生成语义信息，加入音频特征进行补充，提出了多尺度可变形注意力模块（MSDT），应用并行的预测头，加快模型收敛速度，提高模型精度。实验结果证明，模型在两个基准数据集上性能均有很好的表现，评价指标BLEU4上达到了2.17。

出版日期2023
单位沈阳工业大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-01-10 06:08

基于Transformer网络多模态融合的密集视频描述方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友