基于循环结构的视觉Transformer

蒋磊; 王子其; 崔振宇; 常志勇; 时小虎

doi:10.13229/j.cnki.jdxbgxb20221141

摘要

近年来，视觉Transformer在图像分类、目标检测、图像生成等领域都表现出了惊人的潜力，然而其性能的提升依赖于网络的参数量，从而导致其应用场景受限。本文从神经学得到启发，创新性地提出将人脑神经元之间的循环结构应用在视觉Transformer(Vision Transformer，ViT)上。文中首次从黎曼几何的角度解释了循环结构生效的工作原理，之后以Token-to-Token Transformer(T2T Transformer)为主干框架提出了基于循环结构的视觉Transformer。实验结果表明，循环结构的引入能在视觉Transformer参数量基本不变化的情况下大幅提高其性能：使用循环结构后，在Imagenet分类数据集下网络仅增加了0.14%的参数，但带来了9%的分类精度提升。在目标检测任务中，增加0.1%的参数带来了10.7%的性能提升。

出版日期2023
单位吉林大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-01-10 06:42

基于循环结构的视觉Transformer

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友