摘要
利用云端语音识别引擎和机器翻译引擎,结合开源语音处理软件ffmpeg,设计并实现了一个科普视频汉英双语字幕生成的系统。将科普视频文件用开源软件提取音频内容,调用百度云端语音识别引擎(https://aip.baidubce.com/)联合汉语科普知识库,实现语音到汉语字幕及其时间线的转换;调用百度云端机器翻译引擎(http://api.fanyi.baidu.com/)联合汉英科普对译库,将汉语字幕翻译为英文字幕,并对应到汉语字幕的时间线上,最后生成科普视频的汉英双语云端语音识别字幕。本文利用真实科普视频评估了本文所提系统的处理能力,从汉语语音到英文字幕总正确(可懂)率为77.3%;进一步分析该字幕生成系统的人工用时,接近全人工处理的1/5,能够有效降低人工成本,提高科普视频汉英双语字幕的生成效率。
- 出版日期2023
- 单位中国科学院声学研究所