基于改进语谱图的深度学习说话人识别

马志举; 杜庆治<sup>*</sup>; 龙华; 邵玉斌

doi:10.16652/j.issn.1004-373x.2023.21.007

摘要

为了提高说话人识别系统的性能，提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息，在以往的说话人识别算法中，往往没有考虑到说话人身份特性，采用直接提取语音中的语谱图作为网络输入，而说话人识别系统中需要提取语谱图中表征身份的信息，因此需要在原始语谱图的基础上进行改进。在语谱图中，基音频率以及共振峰等信息最能表现说话人的身份特征，从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波，得到改进后的语谱图，再通过卷积神经网络提取说话人特征，从而达到提升识别准确率的效果。网络模型采用MobileNetv2神经网络，该网络模型具有模型参数少、收敛速度快、识别速度快等优点，有利于实际应用。在对照实验结果中，该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。

出版日期2023
单位昆明理工大学; 自动化学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 07:08

基于改进语谱图的深度学习说话人识别

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友