基于物体显著性和跨模态融合特征的图片描述生成方法

作者:何立火; 张怡; 高新波; 路文; 屈琳子; 钟炎喆; 邢志伟; 李琪琦
来源:2019-06-21, 中国, CN201910544985.7.

摘要

本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法,主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题,其实现步骤为:1.采用Faster R-CNN+ResNet-101网络,检测图片显著性区域的视觉特征和物体类别信息;2.采用特征融合算法生成文字特征和图片视觉特征的融合特征;3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权;4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确,语句流畅的优点,可用于社交多媒体检索、盲人读图和辅助视频监控。