Параллельные вычисления на ферме ЛИТ.

1. Запуск паралельных задач в BATCH

Для выполнения параллельных вычислений на ферме ЛИТ  создана ферма  из 20 28-ми ядерных машин , соединенных дополнительно 2x Infiniband.  Пользователям для выполнения паралельных вычислений доступно 560 ядер .  Задачи запускаются в очередь  «ib»   параметры которой всегда модно узнать используя команду:
qstat -Qf ib :

Queue: ib
resources_max.cput = 50000:00:00
resources_max.nodect = 560
resources_max.walltime = 101:00:00
resources_min.nodect = 2
resources_available.nodect = 560
resources_default.cput = 50000:00:00
resources_default.walltime = 101:00:00

cput — maximum amount of CPU time used by all processes in the job.
Units: time.

max.nodect — максимальное число ЦПУ для параллельной задачи (для очереди ib);
max.walltime — максимальное астрономическое время счета задачи;

cput — максимальное количество процессорного времени, используемое всеми процессами в задании.

астрономическое время (walltime) * число процессов (nodect) —
— процессорное время (cput)

Пример 1.  Запуск задачи на счет с использованием файла pbs_script.
qsub pbs_script, где pbs_script :

#!/bin/sh
#PBS -q ib
#PBS -l walltime=10:00:00,nodes=8:para
#PBS -m abe
#PBS -M username@lxpub01
#PBS -r n
mpiexec $PBS_O_WORKDIR/program_name

Пример 2.  запуск задачи на счет с указанием необходимых параметров в командной строке.

qsub –q ib -l walltime=10:00:00,nodes=8:ib -m abe -M username@lxpub01 -r n mpiexec $PBS_O_WORKDIR/program_name

параметры:
-q — название очереди (для параллельных вычислений это «ib»)
-l — набор технических параметров через «,»
-walltime — максимальное время выполнения
-nodes — количество процессоров (в конце после «:» название очереди)

-m — события, о которых следует извещать email’ом:
b — начало,
e — завершение,
a — прекращение работы по ошибке
-M — e-mail адрес, на который направляются все служебные сообщения о состоянии задачи
-r — (y/n) следует ли восстанавливать задачу, при перезагрузке узлов

Пример 3. Запуск параллельных задач расположенных в AFS

Пример 4. Запуск параллельных задач с файлами, находящимися вне AFS

Пример 5. Test-job. когда у пользователя что-то в batch-системе не работает