摘要

针对图像标注和注意力机制结合过程中特征不充分性和预测过程中特征权重不足性,提出了一种多层多模态语义空间的图像注意力标注方法。通过多层多模态公共语义空间对文本和图像改进网络,从基于文本的语言模型中利用多层的深度卷积神经网络特征提取上下文和句子;利用非线性特征图视觉映射到各层的文本和句子中获得多个公共语义空间实例,其中所有目标文本和视觉文本之间是以余弦相似度进行计算的;构建多层多模注意力机制在每个输出层都加入视觉特征,选择一层与图像上下文得分相关性最高的一层作为输出标注。实验结果表明,该方法能较好地提取注意力区域并给出标注,与其他传统方法对比,文中提出的模型标注结果具有一定优势。

  • 出版日期2021
  • 单位常州轻工职业技术学院