摘要

[目的/意义]科学论文中的图、表等科学数据(文内数据)蕴含有丰富的知识内容。基于细粒度语义组织的文内数据发现有效聚合文献、科学数据两类科研产出,为未来实现全领域、全维度、全粒度、全类型的深度知识发现奠定基础。[方法/过程]梳理、对比、分析现有3类文内数据的发现模式,尝试构建面向细粒度内容描述的文内数据本体,揭示文内数据的显性特征、内容特征以及与其他类型科学产出的关联特征。[结果/结论]从面向应用的角度,提出基于本体的文内数据知识发现技术框架,细化"信息抽取—语义标注—关联应用"技术路线,针对关键点技术进行讨论。文内数据本体为科学论文内科学数据提供语义描述和关联组织依据,人工标注结合机器学习自动标注可以解决文内数据部分特征发现问题。

全文