摘要

对支持向量分类机中大规模数据集训练速度慢的瓶颈提出一种预处理方法,通过设置邻域特征值,比较样本点特征信息,建立样本集删除矩阵,剔除重复反映分类特性的样本点,达到在保持分类精确度的同时提高数据集训练速度,减少训练时间的目的。通过对随机数据和UCI标准数据库的数值实验验证了算法有效性,且相应调整计算阈值时可以达到提高分类精度的效果。