摘要

针对传统卷积神经网络(CNN)在测试语音短的情况下说话人识别准确率不高、特征提取方面表现不佳的问题,提出了SincNet与加入了注意力机制的ResNet网络相结合的说话人识别方法。首先,针对短语音条件下说话人信息不足的问题,用不同窗口大小的Sinc卷积层提取多分辨率的特征,并结合通道注意力机制增强特征信息;其次,将多通道的特征输入到ResNet网络得到更高层的特征信息,然后通过空洞空间金字塔池化(ASPP)进行多尺度特征融合;最后通过Softmax层获得分类概率。在TIMIT语料库上进行了实验,在不同长度的测试语音条件下所提算法准确率均高于传统CNN等对比方法。基于以上实验结果,充分表明了本文算法在短语音说话人识别任务上的有效性。