海量数据干扰下的危险Web数据挖掘技术研究

作者:王曙霞; 熊曾刚
来源:微电子学与计算机, 2016, 33(02): 87-91.
DOI:10.19304/j.cnki.issn1000-7180.2016.02.019

摘要

提出一种海量数据干扰下基于自组织映射的危险web数据挖掘算法,通过海量数据的预测值与实际值之间的误差对其中的干扰数据进行判断和排除,在此基础上,通过自组织特征映射网络对危险web数据进行挖掘,介绍了自组织特征映射网络及输出层竞争的详细过程,确定一个可形成映射的网络,将待挖掘危险web数据看作是输入向量输入自组织映射网络中,在输出图上产生相应的胜出点,将相似的输入向量汇聚在映射图的相邻区域,与该区域距离较远的胜出点对应的输入向量则可被判断是危险web数据.仿真实验结果表明,采用所提算法对海量数据干扰下的危险web数据进行挖掘,不仅具有很高的挖掘效率,而且在挖掘精度上也有很高的性能.

全文