摘要

传统语音识别声学模型DFCNN在对语音特征进行提取的时,采用深度卷积模型只考虑了局部特征,对不同的声学特征无法抓重点选择,且训练速度较慢,难以收敛。文本针对这些问题,提出一种基于深度残差的卷积神经网络的声学模型DRCNN。结合CTC技术,直接使用DRCNN对声学特征进行建模,使用SE-Block通道加权残差机制和深度堆叠结构,加快声学特征提取过程,增强拟合能力,提高训练速度。在此基础上搭建基于transformer的语言模型。相比传统DFCNN-HMM模型,更能学习到语音信息的深度特征,增强声学模型,语言模型鲁棒性。实验结果表明,在中文语音识别数据集,文本提出的语音识别算法相比DFCNN-HMM有在字错误率WER上有4.03%的提升。

  • 出版日期2023
  • 单位武汉邮电科学研究院