摘要

基于大规模分布式WWW搜索引擎系统---北大“天网”的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列,利用时间序列分析的方法,分别建立了天网用户的查询量、点击量和不同IP用户访问量的潜周期模型;结果显示模型对实际数据拟合效果较好;用户访问的主周期为24小时,其它周期依次为12小时、6小时、8小时、5小时、168小时(即一周);用户的异常访问情况可通过小波技术检测。