Slurm Batch System.

SLURM – это высокомасштабируемый отказоустойчивый менеджер кластеров и планировщик заданий для больших  и малых кластеров Linux.  SLURM управляет доступными вычислительными узлами и распределяет нагрузку по выделенным узлам.  Slurm состоит из демона  slurmd, работающего на каждом вычислительном узле  и  slurmctld,  работающего на управляющем узле. Демоны slurmd обеспечивают отказоустойчивую иерархическую связь.  Демон slurmctld следит за вычислительными ресурсами, но, что более важно, он занимается распределением этих ресурсов между разными заданиями. Демоны Slurm управляют:

  • узлами (nodes),
  • разделами (partitions), которые группируют узлы в логические (возможно, перекрывающиеся) наборы,
  • заданиями (jobs) или распределения ресурсов, назначенных пользователю на определенный период времени,
  • шагами задания (job steps),  которые представляют собой наборы  задач в рамках задания.

Разделы (partitions ) можно рассматривать как очереди заданий. Основные режимы работы  Slurm :

  • interactive интерактивный сеанс
  • sbatch — запустить и выполнить  «batch job script»
  • sqstat — версия, аналогичная командам PBS qstat.
  • srun —  обычно используется внутри «batch job scripts»  для выполнения параллельных задач
  • scancelотмена одного или нескольких заданий.

 

****************************************************************************

 

Использованы материалы сайтов
https://slurm.schedmd.com/
https://support.ceci-hpc.be/doc/_contents/QuickStart/SubmittingJobs/SlurmTutorial.htm