融合主题和要素的汉柬可比语料获取方法

郭月江; 严馨; 刘小惠; 余正涛; 线岩团; 莫源源

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

融合主题和要素的汉柬可比语料获取方法

作者：郭月江; 严馨; 刘小惠; 余正涛; 线岩团; 莫源源

来源：云南大学学报(自然科学版), 2017, 39(03): 360-368.

摘要

为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.

出版日期2017
单位上海师范大学; 云南民族大学; 昆明理工大学; 自动化学院

收藏分享被引浏览

更新时间：2024-05-12 05:33

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号