摘要

现有的电视语音响度补偿是针对人耳听阈和听力障碍的损失进行均衡补偿,这类方法会放大同频段的非人声。针对这类方法的缺陷,提出利用深度学习语音增强技术将人声从电视节目音频中分离出来,使用户直接听到清晰人声。对此提出密集连接卷积网络(Densely Connected Convolutional Network,DenseNet)结合卷积神经网络编解码器(Convolutional Encoder-Decoder,CED)结构的新型神经网络语音增强模型。该模型量级较轻,能够在电视上实时运行,与同量级网络参数的卷积神经网络(Convolutional Neural Networks,CNN)语音增强模型相比,效果更好且模型更小。

全文