基于跨模态信息过滤的视觉问答网络

何世阳; 王朝晖; 龚声蓉<sup>*</sup>; 钟珊

摘要

视觉问答作为多模态任务，瓶颈在于需要解决不同模态间融合问题，不仅需要充分理解图像中的视觉和文本，还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径，然而先前的方法，通常将提取的图像特征直接进行注意力计算，忽略了图像特征中含有噪声和不正确的信息这一问题，且多数方法局限于模态间的浅层交互，未曾考虑模态间深层语义信息。为解决这一问题，提出了一个跨模态信息过滤网络，即首先以问题特征作为监督信号，通过设计的信息过滤模块来过滤图像特征信息，使之更好的契合问题表征；随后将图像特征和问题特征送入到跨模态交互层，在自注意力和引导注意力的作用下分别建模模态内和模态间关系，以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛实验，实验结果表明，信息过滤模块的引入有效提升了模型准确率，在test-std上的整体精度达到了71.51%，相比于大多数先进的方法具有良好的性能。

出版日期2023
单位苏州大学; 常熟理工学院

收藏分享被引浏览

更新时间：2024-01-10 10:37

基于跨模态信息过滤的视觉问答网络

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友