摘要

数据库分类是多数据库存储、管理和挖掘的预处理技术。目前,不依赖具体应用的多数据库分类的研究甚少,并且忽略内聚度和耦合度,复杂度高。论文提出一个基于高内聚和低耦合的多数据库分类方法,该方法不依赖于具体的应用,避免了聚类结果的不稳定性,且降低了时间复杂度。具体地,该方法名为DHC首先构造一个多目标优化问题,然后利用层次聚类思想构造算法查找最优聚类。利用一个人工数据库和一个现实数据库相似度二维表进行实验,实验表明该方法聚类稳定性强,时间复杂度比BestClassification低,泛化能力强。