slurm scontrol

Команда
scontrol в Slurm используется для просмотра и изменения состояния узлов, заданий (jobs), разделов (partitions) и конфигурации. Она позволяет администраторам управлять кластером, а пользователям — получать детальную информацию о своих задачах.

Примеры использования scontrol

1. Просмотр информации (View)

  • Показать информацию обо всех узлах:
    scontrol show nodes
  • Показать информацию о конкретном узле:
    scontrol show node=node01
  • Показать детали конкретного задания:
    scontrol show job
  • Показать конфигурацию раздела:
    scontrol show partition=debug
  • Показать общую конфигурацию Slurm:
    scontrol show config
  • Oтображение текущего содержимого внутреннего кэша демона slurmctld, уделяя особое внимание связям пользователей, ограничениям и настройкам качества обслуживания (QOS)
    scontrol show assoc_mgr flags=users

 

2. Изменение состояния (Modify)

Перевести узел в состояние «DRAIN» (для обслуживания):
scontrol update NodeName=node01 State=DRAIN Reason=»maintenance»

Вернуть узел в работу (из состояния DRAIN/DOWN):
scontrol update NodeName=node01 State=RESUME

Изменить лимит времени для задания:
scontrol update JobId=12345 TimeLimit=60 (установить 60 минут)

Приостановить задание:
scontrol suspend

Возобновить приостановленное задание:
scontrol resume

3. Работа с узлами (Hostnames)

Преобразовать диапазон узлов в список:
scontrol show hostnames node[01-05] (выведет: node01, node02, …, node05).

4. Удаление (Dynamic Nodes)

Удалить динамический узел:
scontrol delete nodename=.

Примечание: Для большинства команд по изменению состояния (update, suspend, resume) требуются права администратора (root) или роль оператора.

Работа с заданиями (Jobs)

Просмотр подробной информации о задании:
scontrol show job — выводит полные данные: время запуска, используемые узлы, лимиты и причины задержки.

Приостановка и возобновление:
scontrol suspend — временно остановить выполнение.
scontrol resume — продолжить выполнение.

Удержание в очереди:
scontrol hold — запретить запуск задания (перевод в состояние DRAINED).
scontrol release — разрешить запуск удержанного задания.

Изменение параметров «на лету»:
scontrol update jobid= TimeLimit=02:00:00 — изменить лимит времени для уже поданного задания.

Состояние узлов (Nodes)

Просмотр информации об узле:
scontrol show node — показывает количество ядер, памяти, состояние и активные задачи.

Вывод списка всех хостов из сокращенной записи:
scontrol show hostnames «node[01-03,05]» — разворачивает список имен узлов построчно.

Управление состоянием (требуются права администратора):
scontrol update nodename= state=down reason=»maintenance» — пометить

узел как нерабочий для обслуживания.
scontrol update nodename= state=resume — вернуть узел в работу.

Конфигурация кластера

Просмотр очередей (Partitions):

scontrol show partition — параметры очереди: лимиты по времени, доступные узлы и приоритеты.
Просмотр общей конфигурации Slurm:
scontrol show config — выводит все текущие настройки из slurm.conf.
Перезагрузка конфигурации:
scontrol reconfigure — применяет изменения в файле настроек без перезапуска демонов.