摘要

一框式检索功能普遍提供于各类互联网信息门户的首页,由于需要交互式操作以及返回页面仅包含与用户所提交关键字相关的查询结果等原因,较少受到传统搜索引擎的关注.但是在垂直搜索中,若能够有效利用远程服务器自带的站内检索功能,将在显著降低本地计算资源和带宽消耗的同时,提高查全和查准率.提出并实现了一种用于在主题相关的页面采集过程中自动定位交互式查询接口的双层分类器.针对8个不同领域主题的规模化实验显示,该分类器能够准确过滤非相关域名和非可查表单,实现搜索接口的有效识别.