开放场景下短时语音说话人识别系统的优化设计

郭新; 邓爱文; 罗程方; 邓飞其<sup>*</sup>

doi:10.13878/j.cnki.jnuist.20221108003

摘要

为适应开放场景下说话人识别短时语音的应用需要，本文对说话人识别模型进行优化，提升了模型的准确率和鲁棒性.为了实现对重要频率特征的筛选，提出基于重加权的特征增强层及网络，起到增强特征表达的作用.将人脸识别领域的误分类样本损失函数首次引入到说话人识别领域，提高对困难样本的挖掘能力.提出基于误分类样本挖掘的分类损失与基于小样本学习框架的余弦角度原型损失的组合损失函数，解决了分类损失函数与说话人识别实际评测需求不匹配和度量函数对采样策略依赖性强的问题.实验结果显示，与基准模型相比，性能指标等误率(EER)降低12.45%,最小检测代价函数(minDCF)降低14.09%,取得现有说话人识别领域的优异效果.

出版日期2023
单位华南理工大学; 广东交通职业技术学院; 机电工程学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-05-24 18:56

开放场景下短时语音说话人识别系统的优化设计

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友