摘要

针对单个或少量多个原型不足以表示整张图像中的目标信息,提出了一种基于语义协同指导的小样本语义分割算法。首先,利用一组共享权重的特征提取器将图片映射到深度特征空间,并借助支持图片的真实掩码过滤掉目标的背景区域;然后,利用Vision Transformer细粒度地将深度特征直接抽象为表示目标信息的多个原型,并在此基础上引入目标类的语义信息作为辅助学习任务;最后,利用一种无参数的度量学习算法计算查询特征和原型之间的相似度值,根据计算结果逐像素的指导查询图片中未知新类的分割。在开源的PASCAL-5i和COCO-20i数据集上进行测试,所提出模型在1-shot和5-shot任务上均取得了可竞争性的分割结果,与当前主流算法相比,具有更好的分割性能。