摘要

针对传统数据备份算法无法有效剔除备份过程中所产生的冗余数据,导致数据存储空间利用率下降,提出基于平衡二叉树的数控机床数据去重备份算法。通过编辑距离算法计算数控机床数据的属性集,得到数据间的相似度,依靠Canopy算法获取数据的关键属性,并结合数据相似度剔除存在重复记录的数据,最后将需要备份的机床元数据以时间戳作为基础,使用平衡二叉树算法对数据进行备份,并结合数据冗余挖掘模型,剔除在数据备份与恢复过程中所产生的冗余数据,实现数据去重备份。实验证明,所提方法可以有效避免因重复数据传输量提升而引起的带宽瓶颈效应,提升数据存储空间利用率。