基于循环结构的视觉Transformer

作者:蒋磊; 王子其; 崔振宇; 常志勇; 时小虎
来源:吉林大学学报(工学版), 2023, 1-9.
DOI:10.13229/j.cnki.jdxbgxb20221141

摘要

近年来,视觉Transformer在图像分类、目标检测、图像生成等领域都表现出了惊人的潜力,然而其性能的提升依赖于网络的参数量,从而导致其应用场景受限。本文从神经学得到启发,创新性地提出将人脑神经元之间的循环结构应用在视觉Transformer(Vision Transformer,ViT)上。文中首次从黎曼几何的角度解释了循环结构生效的工作原理,之后以Token-to-Token Transformer(T2T Transformer)为主干框架提出了基于循环结构的视觉Transformer。实验结果表明,循环结构的引入能在视觉Transformer参数量基本不变化的情况下大幅提高其性能:使用循环结构后,在Imagenet分类数据集下网络仅增加了0.14%的参数,但带来了9%的分类精度提升。在目标检测任务中,增加0.1%的参数带来了10.7%的性能提升。

全文