摘要

针对关键词中的集外词检索任务,提出采用音素、音节、词片三种子词单元进行多流信息的联合检索算法,其中对基于音素的语音检索(Spoken term detection,STD)系统使用基于n元语言模型-加权有限状态机的完全匹配检索降低漏警,对基于音节、词片的STD系统使用模糊匹配检索降低虚警,最后采用线性逻辑回归(Linear logistic regression,LLR)的算法将三个子系统的结果进行融合。在NIST STD 2006语音检索评测的英语电话会话语音测试集上的实验结果表明,相对于最好的单流系统,多流信息融合获得了12%的实际词项权重值(Actual term weighted va...

全文