摘要

古诗词地名实体识别不仅有助于深度挖掘古诗词文本之间的关联,而且有助于绘制中国诗歌版图分布,推动空间维度的中国古典文学研究。文章围绕南京城系统采集有关古诗词数据,采用BIOES方法进行地名实体标注。针对古诗词领域训练数据匮乏、以字代词等问题,提出一种采用数据增强方法,同时融合预训练模型与条件随机场方法的古诗词地名识别模型,简称DABERT-CRF模型。文章将训练数据采用实体交叉互换方法进行数据增强处理,然后通过预训练模型BERT得到古诗词地名的上下文语义信息,最后利用条件随机场CRF实现地名标签约束并生成全局最优地名序列。文章提出的DA-BERT-CRF模型十折交叉实验平均精确率、平均召回率和平均F值分别为86.49%、90.44%、88.35%。

全文