摘要

开放信息抽取(open information extraction,OpenIE)旨在从自然语言文本中以关系短语及参数的形式生成信息的结构化表示,为知识库自动化构建、开放域问答和显式推理等下游任务提供基础支持。近年来,该领域的研究与应用不断深入,涌现了众多卓有成效的OpenIE研究思路和拓展模型。从OpenIE的定义、数据集和基准度量出发,详细深入地综述和比较了传统的OpenIE模型和基于神经网络的模型。针对传统方法,分类介绍了基于学习的模型和基于规则的模型,并深入研究了不同模型的评估方法,分析了不同类别模型之间的差异。针对基于神经网络的模型,根据抽取谓词的不同方式,将其分为联合抽取和分步抽取两种类型,并对每种模型进行了综述和对比分析。对OpenIE常用的数据集以及主要的评估基准进行了概述,并在此基础上进行了对比分析。从训练、改进以及应用三个角度对OpenIE的工作进行了总结,并对该工作的未来进行了展望。