摘要

本文研究提出了一种基于注意力机制的卷积长短时记忆(Attentional Convolution Long Short Term Memory A-ConvLSTM)模块。该模块可以应用于多阶段目标检测和分割模型中,从而进一步提高模型的精度。另外,该模块还可以自然的与不同的模型架构进行集成,而不用对原有模型进行大量的结构修改。同时,该模块并能够支持任意步长的迭代,从而实现应用中对模型推理速度和精度进行平衡的需求。通过引入提出的模块,基于ResNet-50-FPN主干网络的R-FPN模型在目标检测方面可达到43.0%的平均精度(meanAverage PrecisionmAP),在实例分割任务上可达到38.3%的mAP。不仅如此,基于更大的主干网络ResNeXt-101-FPN的模型在检测和分割任务上分别可达48.1%和41.9%。通过大量的试验对比,A-ConvLSTM模块在提高视觉任务模型精度上的通用性和有效性得到了充分的分析和论证。

  • 出版日期2021