摘要

网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTML DOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页URL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。

全文