多集群系统中资源监控模块的设计与实现

作者:张蓓蓓; 杨洁
来源:计算机测量与控制, 2016, 24(08): 168-170.
DOI:10.16526/j.cnki.11-4762/tp.2016.08.045

摘要

针对单一集群用户提交大量作业时系统响应时间长的问题,提出了一种多集群系统中资源监控的设计方案,该方案主要是对集群中各个子节点所有可用资源的状况进行监控,采集子节点的资源信息,并将收集到的集群节点负载信息传送给作业控制模块,使得作业根据分布在多集群环境中的计算资源负载情况进行作业跨集群调度;此方案可用于商业、高校等计算节点比较多的场所,提高工作效率,此方案已在高性能计算中应用,运行状况稳定;实验结果表明,当用户并提交作业和查询作业状态时,多集群系统响应时间优于单一集群系统响应时间。

全文