摘要

针对现有图像描述生成方法普遍存在对夜间场景、目标被遮挡情景和拍摄模糊图像描述效果不佳的问题,提出一种基于特征融合的多波段探测图像描述生成方法。本文在将红外探测成像引入图像描述领域的基础上,首先,利用多层卷积神经网络对可见光图像和红外图像分别提取特征;再根据不同探测波段的互补性,以多头注意力机制为主体设计空间注意力模块,以融合目标波段特征;然后,应用通道注意力机制聚合空间域信息,以指导生成不同类型的单词;最后,在传统加性注意力机制的基础上构建注意增强模块,计算注意结果图与查询向量的相关权重系数,消除无关变量的干扰,从而实现图像描述生成。在可见光图像-红外图像描述数据集上进行多组实验,分析结果表明所提方法有效融合了双波段的语义特征,在BLEU4指标上达到58.3%、CIDEr指标上达到136.1%,能显著提高图像描述准确度,从而用于安防监控和军事侦察等复杂场景理解。

全文