摘要

目前语音识别系统的输入都是线性PCM格式的音频文件,然而在实际应用中,需要识别各种格式音频文件以及视频流中的音频,在开始识别前,需要进行音频格式转换并从视频流中进行音频提取。因此,音频格式的转换和从视频中分离出音频信号已成为语音识别系统一种必需的预处理过程。文中介绍了一种将M icrosoft的D irectShow技术应用于W indows平台的多种压缩音频格式转换为W indows PCM WAV格式以及从多媒体视频中分离音频信号的方法,并分析了常见音频压缩编码格式经转换后对语音识别系统性能的影响。这对于语音识别技术在实际中的应用有着重要的意义。