摘要

随着文献爆炸式增长,学科领域不断交叉融合,科研规模扩大和知识体系复杂性日益提升,如何清晰地可视化学科知识图景,进而把握知识结构和研究态势,引起了科技情报人员的广泛关注。本研究基于文档表示学习和流形学习算法,提供了一种科学领域语义地图(semantic map,Smap)构建方法。首先以Doc2Vec捕获文献间的高维语义特征,然后利用UMAP (uniform manifold approximation and projection)对文献语义临近性进行非线性降维,最后以核密度估计根据文献分布异质性刻画领域知识结构。在实证分析阶段,本研究对文献规模覆盖了从千级到百万级的4个学科领域,进行了领域可视化、知识层级结构识别以及动态演化分析。进而,本研究借助引用关系、关键词以及数据集的分类体系,通过量化Smap地图上文献分布的局部纯粹性以及全局地图距离和研究差异的相关性,验证了所提方法的有效性。本研究通过与随机实验对比,进一步地量化了有效性的显著程度。本研究为当前科学领域可视化方法提供了有益补充,可为大规模科技文献数据驱动的科技情报服务提供分析工具。