基于RoBERTa-ND的中文实词辨析

作者:孙晨瑜*; 王振琦; 张宝宇; 张卫山; 侯召祥; 陈涛
来源:计算机系统应用, 2023, 32(05): 157-163.
DOI:10.15888/j.cnki.csa.009099

摘要

在机器阅读理解任务中,由于中文实词的组合性和隐喻性,且缺乏有关中文实词辨析的数据集,因此传统方法对中文实词的理解程度和辨析能力仍然有限.为此,构建了一个大规模(600k)的中文实词辨析数据集(Chinese notional word discrimination cloze data set, CND).在数据集中,一句话中的一个实词被替换成了空白占位符,需要从提供的两个候选实词中选择正确答案.设计了一个基线模型RoBERTa-ND (RoBERTa-based notional word discrimination model)来对候选词进行选择.模型首先利用预训练语言模型提取语境中的语义信息.其次,融合候选实词语义并通过分类任务计算候选词得分.最后,通过增强模型对位置及方向信息的感知,进一步加强了模型的中文实词的辨析能力.实验表明,该模型在CND上准确率达到90.21%,战胜了DUMA (87.59%), GNN-QA (84.23%)等主流的完形填空模型.该工作填补了中文隐喻语义理解研究的空白,可以在提高中文对话机器人认知能力等方向开发更多实用价值.数据集CND及RoBERTa-ND代码均已开源:https://github.com/2572926348/CND-Large-scaleChinese-National-word-discrimination-dataset.

全文