摘要

引入了一个近似的贝叶斯模型,通过使用硬聚类和分段而不是完全贝叶斯推理来提高整体效率。这种嵌入的分段K-Means模型将任意长度的单词段表示为固定维的声学单词嵌入。首先将嵌入式分段K-Means方法与先前的方法分别在普通英语和聪加语数据集上进行比较。嵌入式分段K-Means方法在分词方面明显优于当前的启发式方法,以更少的参数给贝叶斯模型提供了相似的分数,且速度快5倍。最后,展示了嵌入式分段K-Means系统通过将其应用于2017年零资源语音挑战赛中的5种语言而扩展到更大的语料库,取得了不错的结果。