摘要

多模态特征融合中使用跨模态注意力机制会出现混淆效应,导致模态交互时出现有害偏差,从而对情感分类结果产生影响。针对以上问题,提出一种基于因果门控注意力机制的跨模态融合网络。首先,利用特征掩膜文本嵌入模块提高音视频两个模态的语义表征能力,然后使用跨模态注意力融合模块将音视频模态互补融合,得到音视频模态融合特征,接着,使用因果门控跨模态融合网络充分融合文本和音视频模态异质数据,最后使用softmax对情感分析结果分类。提出的跨模态融合网络与基线方法相比,在CMU-MOSEI数据集上取得了不错的情感分类效果,故而能够有效的关联和集合多模态相关信息。