摘要

高可用和容错已经成为衡量机群系统(简称机群)的一个重要指标,随着机群的规模越来越庞大,如何实现大规模机群下的容错管理软件成为了技术难点.以传统分布式系统中的组通信技术为基础,采用将复杂的系统“分而治之”的思想,提出了组服务技术,可以解决容错管理软件的可扩展性和高可用性.同时,在组服务技术的基础上,结合实时的事件服务技术实现了一个大规模机群下的容错管理系统DCFTKernel,介绍了实现组服务和DCFTKernel的主要技术问题,并且对DCFTKernel的性能进行了分析.