摘要

语音情感识别在人机交互中具有重要意义,为解决中文语音情感识别的识别效率差、识别准确率低等问题,该文章提出了一种改进语音处理的卷积神经网络中文语音情感识别。通过改进原有的MFCC(Mel Frequency Cepstrum Coefficient, MFCC, 梅尔倒谱系数)特征提取过程中进行分帧加窗操作时采样点的选择,进而调整了特征图尺寸,提高了识别效率;并且使用高斯白噪声对数据集进行数据增强处理,同时建立了一种Trumpet-6卷积神经网络结构用于中文语音情感识别,提高了识别准确率。最终的语音情感识别方法识别效率提高了约4倍,其在CASIA(Chinese Academy of Sciences Institute of Automation, 中国科学院自动化所)语音情感数据集上的测试集准确率达到了95.7%,且模型结构参数少,共176550个待训练参数。并且验证了其在跨语料库时的情感识别能力,结果反映该文章方法对中文语音情感有较好分类效果。

全文