Slurm作业调度系统在高性能集群中的应用

作者:杨敏; 李淑倩; 关宇; 何芸; 侯波
来源:电脑知识与技术, 2021, 17(36): 153-159.
DOI:10.14004/j.cnki.ckt.2021.3564

摘要

集群作业管理系统作为高性能计算领域的核心技术,伴随着计算机技术的发展进步逐渐成为计算机学科的热点研究领域。作为集群系统软件的重要组成部分,集群作业管理系统可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。传统作业管理系统大多需要以命令行的方式进行管理,用户需要熟练掌握多种调度器命令。Slurm是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。本文以Slurm作业调度器为例,对其体系结构、作业执行过程做了重点研究,重点阐述其在地震处理软件中的应用。其高效便捷的操作方式,极大提升工作效率,极大程度地优化了集群管理工作。

  • 出版日期2021