摘要

实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本的语言特点进行分析与总结,发现医疗领域实体通常包含一些明显的关键字特征,能够辅助实体分类任务.融合实体关键字特征构建了BERT-BILSTM-CNN-CRF混合模型对医疗领域实体进行抽取,并将医疗实体分为检验指标、疾病、症状这三大类.实验结果表明,使用KBLCC模型进行医疗领域实体分类能够提高实验效果,准确率、召回率和F1值分别达到89.38%、92.46%和90.89%.