摘要

本发明公开了一种基于双视觉注意力网络的视觉对话生成方法,包括以下步骤:1、视觉对话中文本输入的预处理和单词表的构建;2、对话图像的特征提取以及对话文本的特征提取;3、基于当前问题信息对历史对话信息进行注意力处理;4、双视觉特征各自独立的注意力处理;5、双视觉特征相互交叉的注意力处理;6、视觉特征的优化处理;7、多模态语义融合及解码生成答案特征序列;8、基于双视觉注意力网络的视觉对话生成网络模型的参数优化;9、预测答案生成。本发明能为智能体提供更完整、更合理的视觉语义信息,以及更细粒度的文本语义信息,从而提高智能体对问题所预测生成的答案的合理性和准确性。