摘要

提出一种基于分布式数据库与分布式文件系统相结合的海量图片文件存储去重技术。该技术通过提取图片文件二进制流的特征段计算文件MD5码签名,依据签名对图片文件进行存储去重。结合实验数据分析验证该技术不仅能够准确地去重图片,有较高的删除率,且经对比得到该技术在计算签名时间、上传速度等方面均优于文件级去重和块级去重技术,是对海量图片数据存储的一种优化。同时针对该技术的不足提出了改进方案。