摘要

大规模细粒度图像检索是一项极具挑战性的任务。由于图像间具有类间距离小、类内距离大的特点,传统的深度神经网络学习到的图像特征存在高度冗余,导致检索速度慢、存储成本高昂。为解决该问题,提出了一种基于注意力金字塔与监督哈希的深度神经网络模型。在特征提取网络中,针对细粒度图像的特点,采用了双通路金字塔结构,并设计了自上而下的特征通路及自下而上的注意力通路,借此更好地融合高层与低层特征。在分类网络中,为压缩存储空间、提高检索效率,在深度哈希的基础上使用tanh(x)代替sign(x)作为激活函数,使学习到的哈希函数更容易达到平稳分布;同时结合量化损失与分类损失,使生成的哈希码更好地与原始输入图像的特征匹配。在FGVC-Aircraft及Stanford Cars两个标准细粒度数据集上的准确率分别达到82.3%、83.3%,均优于其他对比算法,证明了算法的有效性。