摘要

命名实体识别是构建水利知识图谱的核心技术。水利工程巡检文本是水利工程最为常见的数据类型,以文本形式记录,没有固定格式与结构,但其包含水利工程安全潜在风险信息,具有价值密度高的特点。针对水利工程巡检文本命名实体识别问题,提出字词向量融合的BiLSTM-CRF模型,首先将巡检文本分别在字维度和词维度进行向量化处理,合并字词向量获取字词向量特征;然后利用BiLSTM神经网络获取序列化后的上下文特征;最后通过CRF进行解码并提取相应实体。以南水北调中线工程巡检文本为例,实验结果表明,字词向量结合之后的方法能有效提高识别性能,在实体边界的识别率效果更优,模型准确率、召回率和F1值分别可以达到93.79%,93.06%,93.42%。时间效率较BERT-BiLSTM-CRF模型时间效率提高82.86%。本文方法可为水利工程知识图谱的快速构建提供技术支撑。