摘要

为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题。提出了一种基于多路信息聚合协同解码的单通道语音增强网络(MIACD),通过双路编码器充分提取融入了语音自监督学习表征(SSL)的幅度谱和复数谱特征,由四层Conformer分别从时间和频率维度对提取特征进行建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器中,并利用所提通道-时频注意力机制(CTF-Attention)根据语音能量分布情况对解码器中聚合信息进行调节,有效改善了解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上实验结果表明,相比用于单通道语音增强的协作学习框架(GaGNet),MIACD在客观评价指标WB-PESQ上提升了5.1%,STOI达到96.7,验证所提方法可充分利用语音信息进行信号重构,有效抑制噪声并提升语音可理解性。