基于改进的Transformer＿decoder的增强图像描述

林椹尠; 屈嘉欣<sup>*</sup>; 罗亮

摘要

Transformer的解码器（Transformer＿decoder）模型已被广泛应用于图像描述任务中，其中自注意力机制（Self Attention）通过捕获细粒度的特征来实现更深层次的图像理解。本文对Self Attention机制进行2方面改进，包括视觉增强注意力机制（Vision-Boosted Attention,VBA）和相对位置注意力机制（Relative-Position Attention,RPA）。视觉增强注意力机制为Transformer＿decoder添加VBA层，将视觉特征作为辅助信息引入Self Attention模型中，指导解码器模型生成与图像内容更匹配的描述语义。相对位置注意力机制在Self Attention的基础上，引入可训练的相对位置参数，为输入序列添加词与词之间的相对位置关系。基于COCO2014进行实验，结果表明VBA和RPA这2种注意力机制对图像描述任务都有一定改进，且2种注意力机制相结合的解码器模型有更好的语义表述效果。

出版日期2023
单位西安邮电大学; 通信与信息工程学院

收藏分享被引(1) 浏览

更新时间：2024-03-19 04:17

基于改进的Transformer＿decoder的增强图像描述

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友