摘要

上下位关系是自然语言处理领域中的重要概念,用于描述概念之间的从属关系.上下位关系的精准预测,有助于挖掘概念之间的内在层次结构,是构建大规模语义网络、知识本体、知识图谱等知识密集型系统的重要基石.传统上下位关系的预测算法大多依赖较为固定的语言模式,因而具有低覆盖度、高人工干预等缺陷.此外,语言模式与语言本身的特性高度相关,在中文等表述灵活的语言中预测精度较低.随着深度学习技术在自然语言处理领域迅猛发展,词嵌入技术被广泛应用于建模词之间的语义关系.特别地,词嵌入投影模型学习如何将下位词的词向量投影到上位词的词向量,显式地建模了上下位关系的关系表示.基于已有经典研究以及最新成果,本文详细论述了词嵌入投影模型的发展过程和最新研究进展,包括基于迭代学习、转导学习、对抗学习等深度学习技术在词嵌入投影模型上的改进.在实验中,我们对多个词嵌入投影模型在中文和英文的公开数据集上进行充分详细的评测,探讨了不同的词嵌入投影模型在不同学习场景下的优缺点.最后,在面向特定领域和长尾上下位关系抽取等问题上探讨了未来的研究展望.