摘要

道路可行驶区域检测是汽车辅助驾驶系统中场景感知的关键基础。基于卷积神经网络的方法因难以获取全局上下文信息而易产生道路空洞和中断等完整性问题,而基于Transformer的方法缺乏局部理解容易造成边界的错位和越界问题。为了克服上述两类方法的缺陷,提出一种可学习深度位置编码引导的金字塔Transformer网络架构,融合卷积神经网络与Transformer进行道路可行驶区域检测。该框架建立金字塔Transformer主干网从全局感受野提取道路特征,并结合局部窗口注意力弥补细节损失,以收缩自注意力提升特征计算效率。针对Transformer中传统位置编码忽略像素与实际场景空间关联性的问题,提出以深度图像卷积特征构建可学习位置编码的方法,解决现实关联性脱节引起的注意力偏移和语义不对齐问题。在KITTI、Cityscapes与自建厦门市道路数据集上对该方法进行了测试和评估,结果表明该方法在保证较高效率的同时,具有较高的稳定性和精确性,本方法最大F分测量值在KITTI和Cityscapes数据集上分别达到97.53%和98.54%,优于次新方法。本方法为汽车驾驶辅助系统的路径规划与轨迹预测等任务提供了高精度的语义先验信息。

全文