摘要

近年来,针对说话人识别模型的对抗攻击引起了广泛的关注,对说话人识别系统的安全构成了严重的威胁。为了解决现有的声纹对抗样本检测方法参数量过大、鲁棒性差的问题,提出一个声纹对抗样本检测模型e_Xception,该模型以Xception为主干网络,嵌入高效通道注意力(Efficient Channel Attention, ECA)模块,充分提取语音特征。通过合理减少网络模型的宽度,设计了一个轻量级网络模型e_halfXception,减少参数量的同时,仍保持较高的精度。最后,提出一种高频掩码的语音数据增强策略HF-Mask,提高模型的泛化性。实验证明,在对FGSM、BIM、PGD、MI-FGSM、C&W、FAKEBOB六种对抗样本的检测中,取得了较高的准确率,优于其他检测方法,并对模型开展了未知攻击算法、未知目标模型、未知扰动程度的鲁棒性研究, 验证了模型的泛化能力。