摘要

针对当前英汉自动翻译搜索引擎存在关键词提取准确率低,导致英汉翻译效果不佳的问题,设计一个基于多语料库关键词搜索的英汉自动在线翻译系统。通过网络爬虫采集中英文数据并建立一个数据库;然后采用基于词共现+位置信息+相似度的文本关键词提取算法进行关键词提取,并通过特征词加权计算关键词相似度阀值方法进行英文检索和文本分类;由此实现英汉在线自动翻译。结果表明,对比于传统的TF-IDF算法和基于共现词的关键提取算法,提出的关键词提取算法的查准率、查全率和综合指标均为最高,关键词提取效果更好。提出的改进相似度阀值计算方法的查全率和查准率分别为91.5%和98.2%,相较于现有的编辑距离相似度算法、余弦相似度算法明显更高。且本算法的时间损耗仅为60 s,比另外两种算法分别低了180 s和390 s。由此可知,提出的算法可实现关键词特征准确检索和文本分类,英汉在线翻译效果显著提升,设计的系统具备可行性。