摘要

提出了一种融合深度神经网络和Transformer特征的多尺度结构,目的在于解决在同一场景下出现尺寸不同的目标时,显著目标检测网络性能下降的问题。当处理不同尺度的物体时,由于采样深度和感受野尺寸之间的矛盾,现有方法的表现往往不稳定。为了应对这一挑战,采取了3种不同的采样率对特征图进行采样,并使用Transformer模块来学习全局上下文信息。这种方法可以将卷积神经网络(CNNs)和Transformer两种网络的特性进行有效融合,从而创新性地提出了一种针对多尺度物体的显著目标检测策略。在UHRSD-TE,DUT-OMRON和DUTS-TE 3个公开数据集上的实验结果证明,该方法在处理同一场景下不同尺寸物体的显著目标检测任务上表现优秀。

  • 出版日期2023