摘要

低语(Whisper Speech)是指凑近别人耳朵小声说话,即私下里轻微的说话声。低语是一种常见的发音方式,由于发音方式比较特殊,其与正常语音在特征方面有较大差异。目前,区分低语和正常语音多数是借助于各类软件对某些声学特征进行直接观测,比如常见的频谱图等,而对于二者的分类模型研究较少,且没有一个公开的汉语低语语料库。为此,首先创建一个汉语低语语料库;其次,建立一种鲁棒的低语与正常语音的分类系统,提出一种基于卷积神经网络(CNN)的特征融合方法,该方法将光谱平坦度(Spectral Flatness)和语音均方根(Root Mean Square,RMS)相结合。实验结果表明,所提出的特征融合方法能够提高低语与正常语音分类系统的性能,与基线模型相比,准确率提高21.67%。

全文