摘要

中文自然语言文本中实体边界区分难、语法复杂度大,中文命名实体识别(NER)难度往往比英文命名实体识别大。针对中文NER中分词误差传播的问题,提出一种基于相互学习和SoftLexicon的中文命名实体识别模型MM-SLLattice。首先,向字级别表示的句子中加入词信息的模型;然后,在词信息的引入过程中通过结合开放词典与领域词典信息来提高模型的精度;最后,在训练过程中,引入了深度相互学习减小泛化误差提高模型的性能。实验结果表明,该模型在不同类型的中文数据集的实体识别能力有提升,MM-SLLattice在MSRA数据集上F1值为94.09%,比独立网络提高了0.41个百分点,对比实验中F1值也优于其他主流模型协同图形网络(CGN)、卷积注意力网络(CAN)、LR-CNN。所提模型可以更精确地提取中文实体。

  • 出版日期2023
  • 单位电子科技大学; 中国航空工业集团公司成都飞机设计研究所