Deep Web数据采集查询构造方法研究

林海伦; 杨晓刚; 熊锦华; 王元卓; 贾岩涛; 程学旗

摘要

网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动D...

出版日期2015
单位中国科学院计算技术研究所

收藏分享被引浏览

更新时间：2019-06-29 23:48

Deep Web数据采集查询构造方法研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友