• 微信
  • Facebook
  • 分享链接
ScholarMate
客服热线:400-1616-289
登录注册

面向情报获取的主题采集工具设计与实现

谷俊; 翁佳; 许鑫
CHINAJOURNAL
上海理工大学; 宝山钢铁股份有限公司; 华东师范大学

摘要

面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。

关键词

网络爬虫 主题采集 链接筛选 DOM树

出版信息

论文状态
公开发表
期刊名称
图书情报工作
发表日期
2014
卷
58
期
20
页码
91-99
DOI
10.13266/j.issn.0252-3116.2014.20.014

学科领域

图书情报与档案管理计算机科学与技术

产品服务

  • 科研之友
  • 创新城
  • 科创云

服务支持

  • 帮助中心
  • 隐私政策
  • 服务条款

联系方式

在线客服:【立即咨询】
客服热线:400-1616-289
电子邮箱:support@scholarmate.com

关注或下载科研之友

微信二维码
微信公众号
客户端下载二维码
下载客户端
科研成果科研人员 科研机构 科研动态爱瑞思软件

©2025 深圳市科研之友网络服务有限公司

公安备案图标粤公网安备 44030502000213
粤ICP备 16046710 号粤B2-20110417