摘要
本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法,主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题,其实现步骤为:1.采用Faster R-CNN+ResNet-101网络,检测图片显著性区域的视觉特征和物体类别信息;2.采用特征融合算法生成文字特征和图片视觉特征的融合特征;3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权;4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确,语句流畅的优点,可用于社交多媒体检索、盲人读图和辅助视频监控。
- 出版日期2019-6-21
- 单位西安电子科技大学