摘要

针对传统检测方法在不同情境下仅提取语音单一特征可能会导致丢失语音中的重要信息的问题,提出一种基于原始波残差网络的语音欺骗检测方法。取代单一语音特征,直接在语音原始波形中提取帧级特征作为输入;基于参数化Sinc函数重点学习低频和高频截止频率,减少原始波建模参数数量;搭建残差网络模型作为后端分类器,改进激活函数并增加跳转连接模块以获得更好的泛化性能。实验数据集采用ASVspoof2019大赛官方数据集,实验结果表明,在逻辑攻击场景及物理攻击场景中,提出模型均相对基线系统具有更低的等错误率。

全文