摘要

中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,这限制了它们应用于CMNER的性能。基于此本文提出了基于多粒度字形增强的中文医学命名实体识别模型。对于输入的句子,该模型结合汉字的字形空间结构和偏旁部首的表示,同时根据相应的领域词典来匹配字符的领域词信息,增强了字符的语义和潜在边界信息,使模型获得更好的实体识别能力;通过门控机制整合领域词和汉字的字形多粒度特征,综合考虑到汉字的领域信息和汉字底层信息,具有更好的感知医学实体的能力。最后,该模型将多粒度字形增强的字符表示输入到BiLSTM和CRF层,分别进行上下文编码和标签解码。本文使用两个医学领域的数据集来验证我们模型的有效性。实验结果显示,所提出的模型较于最佳基线模型在IMCS21和CMeEE数据集上的F1值分别提升了1.04%和0.62%。此外,通过消融实验验证了该模型的每个组成部分的有效性,研究表明,本文提出的模型在识别中文医学命名实体时具有较好的性能。

全文