Команда
scontrol в Slurm используется для просмотра и изменения состояния узлов, заданий (jobs), разделов (partitions) и конфигурации. Она позволяет администраторам управлять кластером, а пользователям — получать детальную информацию о своих задачах.
Примеры использования scontrol
1. Просмотр информации (View)
- Показать информацию обо всех узлах:
scontrol show nodes - Показать информацию о конкретном узле:
scontrol show node=node01 - Показать детали конкретного задания:
scontrol show job - Показать конфигурацию раздела:
scontrol show partition=debug - Показать общую конфигурацию Slurm:
scontrol show config - Oтображение текущего содержимого внутреннего кэша демона slurmctld, уделяя особое внимание связям пользователей, ограничениям и настройкам качества обслуживания (QOS)
scontrol show assoc_mgr flags=users
2. Изменение состояния (Modify)
Перевести узел в состояние «DRAIN» (для обслуживания):
scontrol update NodeName=node01 State=DRAIN Reason=»maintenance»
Вернуть узел в работу (из состояния DRAIN/DOWN):
scontrol update NodeName=node01 State=RESUME
Изменить лимит времени для задания:
scontrol update JobId=12345 TimeLimit=60 (установить 60 минут)
Приостановить задание:
scontrol suspend
Возобновить приостановленное задание:
scontrol resume
3. Работа с узлами (Hostnames)
Преобразовать диапазон узлов в список:
scontrol show hostnames node[01-05] (выведет: node01, node02, …, node05).
4. Удаление (Dynamic Nodes)
Удалить динамический узел:
scontrol delete nodename=.
Примечание: Для большинства команд по изменению состояния (update, suspend, resume) требуются права администратора (root) или роль оператора.
Работа с заданиями (Jobs)
Просмотр подробной информации о задании:
scontrol show job — выводит полные данные: время запуска, используемые узлы, лимиты и причины задержки.
Приостановка и возобновление:
scontrol suspend — временно остановить выполнение.
scontrol resume — продолжить выполнение.
Удержание в очереди:
scontrol hold — запретить запуск задания (перевод в состояние DRAINED).
scontrol release — разрешить запуск удержанного задания.
Изменение параметров «на лету»:
scontrol update jobid= TimeLimit=02:00:00 — изменить лимит времени для уже поданного задания.
Состояние узлов (Nodes)
Просмотр информации об узле:
scontrol show node — показывает количество ядер, памяти, состояние и активные задачи.
Вывод списка всех хостов из сокращенной записи:
scontrol show hostnames «node[01-03,05]» — разворачивает список имен узлов построчно.
Управление состоянием (требуются права администратора):
scontrol update nodename= state=down reason=»maintenance» — пометить
узел как нерабочий для обслуживания.
scontrol update nodename= state=resume — вернуть узел в работу.
Конфигурация кластера
Просмотр очередей (Partitions):
scontrol show partition — параметры очереди: лимиты по времени, доступные узлы и приоритеты.
Просмотр общей конфигурации Slurm:
scontrol show config — выводит все текущие настройки из slurm.conf.
Перезагрузка конфигурации:
scontrol reconfigure — применяет изменения в файле настроек без перезапуска демонов.