跨模态视觉问答与推理研究进展

张飞飞<sup>*</sup>; 张建庆; 屈思佳; 周琬婷

doi:10.16337/j.1004-9037.2023.01.001

摘要

随着社交媒体和人机交互技术的快速发展，视频、图像以及文本等多模态数据在互联网中呈爆炸式增长，因此多模态智能研究受到关注。其中，视觉问答与推理任务是跨模态智能研究的一个重要组成部分，也是人类实现人工智能的重要基础，已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先，介绍了视觉问答与推理的定义，并简述了当前该任务面临的挑战；其次，从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳；然后，全面介绍了视觉问答与推理常用公开数据集，并对相关数据集上的已有算法进行详细分析；最后，对视觉问答与推理任务的未来方向进行了展望。

出版日期2023
单位天津理工大学; 北京邮电大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 07:35

跨模态视觉问答与推理研究进展

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友