摘要

针对现有方法存在道路区域提取不精准和实时性不足的限制,提出基于轻量级Transformer的路网提取方法RoadViT.利用卷积神经网络与Transformer混合的MobileViT架构进行编码特征,有效地提取高级上下文信息.提出金字塔解码器实现多尺度特征的提取和融合,生成像素类别的概率分布.结合Mosaic与多尺度缩放和随机裁剪策略实现数据增强,构建精细多样的遥感图像.针对城市遥感图像中道路类别和背景类别的不平衡问题,提出动态加权损失函数.实验结果表明,RoadViT的参数量仅为1.25×106,在Jetson TX2上的推理速度可达10帧/s,在CHN6-CUG数据集上的精度可达57.0%.所提方法是轻量级Transformer在城市遥感图像中的有效探索,在保证推理实时性的同时,实现道路提取精度的提升.