摘要

基于新闻数据的访问规律,提出一种改进的Hadoop分布式文件系统(HDFS),利用数据节点分区、文件迁移和节点待机等策略,使部分无任务的节点处于待机状态,实现系统高效节能存储。改进传统HDFS的写文件机制,将数据块优先写入剩余空间最大且处于活动状态的节点中,使同一时段内创建的文件尽量分散至不同节点,增加节点待机概率,同时解决集群数据分布不均的问题。实验结果表明,应用节能存储策略的HDFS相比传统HDFS可降耗20%以上,且99.9%的文件读取响应时间均不受影响,具有较好的数据存储与访问性能。