摘要

医学术语标准化作为消除实体歧义性的重要手段,被广泛应用于知识图谱的构建过程之中.针对医学领域涉及大量的专业术语和复杂的表述方式,传统匹配模型往往难以达到较高的准确率的问题,提出语义召回加精准排序的两阶段模型来提升医学术语标准化效果.首先在语义召回阶段基于改进的有监督对比学习和RoBERTa-wwm提出语义表征模型CL-BERT,通过CL-BERT生成实体的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,其次在精准排序阶段使用T5结合prompt tuning构建语义精准匹配模型,并将FGM对抗训练应用到模型训练中,然后使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词.采用ccks2019公开数据集进行实验, F1值达到了0.920 6,实验结果表明所提出两阶段的模型具有较高的性能,为实现医学术语标准化提供了新思路.

全文