摘要

在知识蒸馏任务中,针对特征对齐过程中存在的特征信息丢失以及软标签蒸馏方法没有考虑不同样本差异性的问题,文中提出了一种双源自适应知识蒸馏(dual-source adaptive knowledge distillation, DSAKD)方法,从教师网络的特征层和软标签中获取更有判别性的知识,进一步提高轻量化学生网络的性能。一方面,提出了一种基于注意力机制的多层特征自适应融合模块,对教师网络和学生网络的中间层特征进行自适应融合,通过特征嵌入对比蒸馏策略优化学生网络的特征提取能力。另一方面,提出了一种自适应温度蒸馏策略,根据教师网络对每个样本的预测置信度为所有训练样本自适应分配不同的温度系数,从而为学生网络提供更有判别性的软标签。实验结果表明,提出的DSAKD方法在3个基准数据集上都取得了最优的蒸馏效果,显著地提高了轻量化学生网络的分类性能。具体而言,与对比方法中性能最优的方法相比,提出的DSAKD方法在CIFAR10、CIFAR100和ImageNet数据集上的平均Top-1验证准确率分别提高了0.46%、0.41%和0.59%。

全文