摘要

电子病历文书详细记录患者诊疗全过程,蕴藏的医学知识是电子病历中最丰富的,因此挖掘电子病历文书潜在的知识结构具有十分重要的价值。面向非结构化电子病历知识挖掘的首要工作是命名实体识别,现有的医学领域命名实体识别方法面临标注数据质量偏低、标注数据不足的问题,同时现有方法中均只考虑文本的序列特性,忽略文本中词间、字间的依赖关系,限制了命名实体识别效果。本文提出一种基于半监督深度学习的医学命名实体识别方法,即结合具有专家权威的中文百科半自动化实体标注法及BERT-GCN-CRF框架,对电子病历文本进行医学命名实体识别抽取。以真实电子病历文本作为实验对象,该模型获取的准确率、召回率、F1值均有明显提高,其中P、R和F1综合平均值分别为84.6%、84.0%和84.2%,同时人工标注工作量显著减少。本文提出的方法对电子病历的非结构化文本挖掘工作有重要意义。