基于残差卷积神经网络的语音识别算法

冯成立; 程雯

摘要

传统语音识别声学模型DFCNN在对语音特征进行提取的时，采用深度卷积模型只考虑了局部特征，对不同的声学特征无法抓重点选择，且训练速度较慢，难以收敛。文本针对这些问题，提出一种基于深度残差的卷积神经网络的声学模型DRCNN。结合CTC技术，直接使用DRCNN对声学特征进行建模，使用SE-Block通道加权残差机制和深度堆叠结构，加快声学特征提取过程，增强拟合能力，提高训练速度。在此基础上搭建基于transformer的语言模型。相比传统DFCNN-HMM模型，更能学习到语音信息的深度特征，增强声学模型，语言模型鲁棒性。实验结果表明，在中文语音识别数据集，文本提出的语音识别算法相比DFCNN-HMM有在字错误率WER上有4.03%的提升。

出版日期2023
单位武汉邮电科学研究院

收藏分享被引浏览

更新时间：2024-03-15 16:48

基于残差卷积神经网络的语音识别算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友