摘要

视觉问答作为多模态任务,瓶颈在于需要解决不同模态间融合问题,不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法,通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征作为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好的契合问题表征;随后将图像特征和问题特征送入到跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比于大多数先进的方法具有良好的性能。