DirectShow技术在音频格式转换及音视频分离方面的应用

徐燃; 潘接林

摘要

目前语音识别系统的输入都是线性PCM格式的音频文件,然而在实际应用中,需要识别各种格式音频文件以及视频流中的音频,在开始识别前,需要进行音频格式转换并从视频流中进行音频提取。因此,音频格式的转换和从视频中分离出音频信号已成为语音识别系统一种必需的预处理过程。文中介绍了一种将M icrosoft的D irectShow技术应用于W indows平台的多种压缩音频格式转换为W indows PCM WAV格式以及从多媒体视频中分离音频信号的方法,并分析了常见音频压缩编码格式经转换后对语音识别系统性能的影响。这对于语音识别技术在实际中的应用有着重要的意义。

出版日期2005
单位中国科学院声学研究所

收藏分享被引浏览

更新时间：2018-08-06 20:39

DirectShow技术在音频格式转换及音视频分离方面的应用

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友