使用源语言复述知识改善统计机器翻译性能

作者:苏晨; 张玉洁; 郭振; 徐金安
来源:北京大学学报(自然科学版), 2015, 51(02): 342-348.
DOI:10.13209/j.0479-8023.2015.032

摘要

为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。

全文