摘要

互联网中数据、信息、知识资源呈现指数级增长,获取这些公开或内部资源的手段分别是传统搜索引擎和站内搜索,这种分离的获取手段造成了信息搜集的不全面,因此对数据融合方法提出了新的挑战。现有的数据融合方法不灵活、集成复杂度高、信息缺失度高。本文提出一种新型的内外数据融合方法,集成自主开发的资源获取组件和成熟的商用服务模块,并通过构建一个应用模型来搭建面向大型机构的学术搜索引擎、形成一个可扩展性强、实时性强、抽取精度高的融合内外部数据的应用平台。该项工作已成功地收集了244个中国科学院所属单位以及相关单位的586,572个网页,34,737个视频,47,390篇论文,并为中国科学院广大师生提供学术资源检索服务功能。

  • 出版日期2011
  • 单位中国科学院研究生院