Инфраструктура и Сервисы сайта Тир2 (JINR-LCG2) 2023:

2023:   

Сайт JINR-LCG2 обеспечивает функционирование :

  • вычислительного комплекса,
  • системы хранения данных ,
  • GRID системы,
  • сервиса передачи данных,
  • распределенных вычислительных систем управления,
  • информационного сервиса  (мониторинг серверов, хранилищ, передачи данных;  информационных сайтов).

Вычислительный  комплекс ( CE):

  • Интерактивный кластер lxpub [01-05] .jinr.ru
  • Пользовательский интерфейс  lxui[01-04].jinr.ru (шлюз для внешних подключений)
  • Вычислительная ферма.
2023Q1-Q4: 
Total:
485 hosts 
10356 cores 
166788.4 HEP-SPEC06  a total performance
16.11 HEP-SPEC06 average per core

 

Системы хранения (SE):

EOS: 

 2023Q4=23328.10 TB;
 2023Q3=22203.82 TB;
 2023Q2=21829.01 TB;
 2023Q1=16582.35 TB;
 ALICE @ EOS Total: 1653.24 TB

EOSCTA:  2023Q3=10PB

AFS: ~12.5 TB (user home directories, workspaces)

CVMFS: 140TB; 3 machines: 1 stratum0, 2 stratum1, 2 squid servers cache CVMFS; (VOs: NICA (MPD, B @ MN, SPD), dstau, er, jjnano, juno, baikalgvd....).

dCache  2023Q4 :

for ATLAS:1939.25 TB
for CMS:  1994.36 TB
Local & EGI @ dcache2 Total: 199.74 

2023: Удалены 8 старых дисковых серверов, добавлены 4 новых DELL R740 по 300 ТБ каждый. Диск SE имеет 4 сервера; в EOS — 28.

2023Q2: dCache — Добавили: 2 сервера ( Qtech QSRV-462402_3) = ~0.68 PB;     EOS — Добавили:  20 серверов (Qtech QSRV-462402_4) .                                           Всего на 2023Q2 EOS = 22.353 PB

Программное Обеспечение

2023 Q1:


ОС: Scientific Linux release 7.9.

EOS 5.1.9 (постоянно меняется)

dCache 8.2

Enstore 6.3 or tape robots SPECall_cpp2006 with 32-bit binaries SPEC2006 version 1.1  

BATCH: Slurm 20.11 with adaptation to kerberos and AFS 

grid UMD4 + EPEL, актуальные версии 

ALICE VObox
ARC-CE
FairSoft
FairRoot
MPDroot

2017-2023Q1:


 

 

Развитие ресурсов :

CE: 
2017 cores=3640; 46867 HEP-Spec06 
2018 cores=4128; 55489 HEP-Spec06 
2019 cores=4128; 55489 HEP-Spec06 
2020 cores=4128; 55489 HEP-Spec06 
2021 cores=7700; 121077 HEP-Spec06 
2022 cores=9272; 149939 HEP-Spec06 
2023 cores=10356; 166788 HEP-Spec06


EOS:  
2019=4 PB;                      
2020=7.198 PB;                                                                                                  
2021=15.598 PB; 
2022=16.586 PB;          
2023Q1=16582.35 TB;
2023Q2=21829.01 TB;
2023Q3=22203.82 TB;
2023Q4=23328.10 TB;

dCache disks:
2018=2070ТB+147TB;
2019=2147 TB; 
2020=9700 TB;  
2021Q1=10686 TB; 
2021Q4=11371 TB;
2022Q1=11371 TB; 
2022Q4=11336 TB;
2023Q3=12506.24 TB;
CE:
2023:
485 hosts
10356 cores
166788.4 HEP-SPEC06 a total performance
16.11 HEP-SPEC06 
 
2022: 
Total: 9272 cores 
149938.7 HEP-SPEC06 a total performance 
37484.7 HEP-kSI2k a performance per core 

2021Q3:  
Total:  7700 cores 
121076.99 HEP-SPEC06  a total performance 
30269.25 HEP-kSI2k   performance per core 

2019  
Total: 
4128  cores/slots 
55488.92 HEP-SPEC06  
13872.23 HEP-kSI2k

 

Архив:

Инфраструктура и Сервисы сайта Тир2 (JINR-LCG2) 2023

Инфраструктура и Сервисы сайта Тир2 (JINR-LCG2) 2021-22

Инфраструктура и Сервисы сайта Тир2 (JINR-LCG2) 2020

Инфраструктура и Сервисы сайта Тир2 (JINR-LCG2) 2019

Инфраструктура сайта  JINR-LCG2 и сервисы , 2018

Инфраструктура сайта  JINR-LCG2 и сервисы , 2017

Инфраструктура сайта  JINR-LCG2 и сервисы , 2016


2020.

Конфигурация  фермы Тир2 (JINR-LCG2):

1)  Изменен batch сервер на тип Slurm. Работает и используется CE.

2) Изменен  Computing Element (CE) для WLCG тип - ARC6.

(CREAM-CE больше не поддерживается центральным сервисом
 запуска задач).

3) ферма переведена на систему Scientific Linux release 7.

4) Добавлен новый ленточный робот  (TS4500).

5) PhEDEx заменен на RUCIO.

6) Подключены новые серверы EOS.
 
7)  Новый пользовательский интерфейс lxui[01-04].jinr.ru в качестве шлюза для внешних подключений

8) Увеличено пространство для пользователей /scrc

Вычислительные ресурсы (CE):

  • Интерактивный кластер lxpub[01-05].jinr.ru
  • Пользовательский интерфейс lxui[01-04].jinr.ru (шлюз для внешних подключений)
  • Вычислительные фермы :

ферма общего назначения,
ферма для экспериментов LHC,
кластер для NICA,MPD,BM@N lxmpd-ui.jinr.ru )

Всего : 
248 вычислительных узлов( WNs) , 
4128 ядер (cores/slots) , 
55489 HS06.

Системы Хранения  (SE):

dCache :   (только для ВО ATLAS,CMS )
дисковые сервера 9700 TB
ленточные роботы : 3003TB; IBM TS3500(1600TB) + IBM T45500(1600TB)    IBM TS3500(1.16PB) + IBM T45500(1.6PB) 

EOS:  7.198 PB (хранение данных)

CVMFS : 2 машины - 2x70 TB h/w RAID1 (VOs: NICA (MPD, B@MN, SPD) (Для ПО проектов NICA(MPD, B@MN, SPD), dstau, er, jjnano, juno, baikalgvd)

afs:  7 серверов,  ~12.5 TB (Домашние директории пользователей и и проектные пространства)

 

2019 :   Инфраструктура сайта  JINR-LCG2  :

Вычислительная ферма.

состоит из    вычислительных  узлов ( 2 x CPU Xeon, 4-28 cores per CPU, E54XX, X65XX, X56XX, ES-26XX v3/4, 2-4GB RAM per core)  моделей SuperMicro Blade, SuperMicroTwin2, Dell FX. Cуммарно мы располагаем :

2019 :
4128  cores/slots

55488.92 HEP-SPEC06
 
13872.23 HEP-kSI2k

Интерактивный кластер.

Для разработки собственного ПО и других нужд пользователей ОИЯИ установлены Пять 64-х битных машин с интерактивным доступом пользователей.

CVMFS (/cvmfs)2 machines: 2x70TB h/w RAID1.

Введена в эксплуатацию подсистема подсистема CVMFS  которая служит для развертывания больших пакетов программного обеспечения коллабораций работающих в WLCG. Используется для запуска приложений обработки данных экспериментов.  B настоящее время  у нас уже хранятся версии ПО  NICA, BM@N, MPD  (/cvmfs/nica, /cvmfs/…)  и  занимают 140TB (до мая 2019 было 9.5 ГБ)   .

OSG HT-CONDOR

Вычислительный элемент OSG HT-CONDOR  введен в инфрастуктуру  сайта Tier2  для VO STAR. Аутентификации  осуществляется через "long lived grid" прокси-сервер. Это позволяет VO STAR обрабатывать данные на нашем  сайте Tier2 с эффективностью  более 90%.

 Программное Обеспечение :

  • OS: Scientific Linux release  6.10 x86_64
  • BATCH : Torque 4.2.10 (home made)
  • Maui 3.3.2 (home made)
  • CMS Phedex
  • ALICE VObox
  • dCache-5.2
  • EOS aquamarine
  • CVMFS

WLCG

Для обслуживания сайта WLCG в ОИЯИ (сайт — отдельный кластер в распределенной среде WLCG) и других международных коллабораций, установлено 22 сервера с системой gLite (ПО промежуточного уровня WLCG). Кроме функций поддержки работы самого сайта JINR-LCG2, часть серверов реализуют важные сервисы и функции поддержки Российского сегмента проекта WLCG.

Стандартный стек программ WLCG:

• 2 x CREAM,
• 4 x ARGUS,
• BDII top, BDII site,
• APEL parsers, APEL publisher,
• EMI-UI, 220 x EMI-WN + gLExec-wn,
• 4 x FTS3,
• LFC,
• WMS,
• L & B,
• glite-proxyrenewal

В ЛИТ ОИЯИ был проведен ряд работ по применению грид-технологий для обработки данных экспериментов, не относящихся к  LHC:  COMPASS, NICA MPD.
Для   эксперимента  COMPASS на SPS была разработана система управления обработкой данных , которая  обеспечивает автоматическую обработку данных и управление на различных типах вычислительных ресурсов.

DIRAC Interware использовался для интеграции распределенных гетерогенных вычислительных ресурсов и ресурсов хранения для моделирования экспериментов NICA MPD. 

Более 50 000 работ по моделированию методом Монте-Карло в эксперименте NICA MPD были выполнены на Tier1 и Tier2 ОИЯИ с использованием DIRAC.

В  2019   в OИЯИ Tier2 добавлены в  виртуальные организации:

ILC (WLCG http://www.linearcollider.org),

MPD (JINR NICA),

BM@N (JINR NICA),

COMPASS (WLCG CERN).

Для виртуальной организации  JUNO на Tier2 будет установлено и настроено несколько сервисов:

  • CE JUNO — будет разрешено запускать задачи в ферме JINR/Tier2
  • VOMS сервер, зеркало основного VOMS в Китае;
  • CVMSF stratum-1 сервер, для поддержки,  доступ к репозиториям ПО JUNO в Китае.

В настоящее время вычислительными ресурсами, доступными для совместной работы, являются пакетная служба CERN, вычислительный центр ОИЯИ и суперкомпьютер Frontera техасского суперкомпьютерного центра.

 

Системы хранения.

  • dCache.

Основной системой хранения больших объемов информации в ЦИВК ОИЯИ служит аппаратно-программный комплекс dCache.  Для сайта Tier2:

1-ый диск для 2-х виртуальных организаций LHC CMS и ATLAS ( Typically Supermicro and DELL)  2PB
2-ий диск для EGI Vos & локальных пользователей :  147TB 
  • EOS (4PB)
EOS  предназначена  для хранения и доступа к большим массивам информации, в том числе и для распределённой коллективной генерации данных, сохранения “сырых” данных установок, преобразования и анализа данных.  В настоящее время  наш EOS  имеет емкость 4PB. Является общим  для Tier1  и Tier2.  Для хранения сырых данных на текущий момент используют  эксперименты BM@n ~81TB, MPD ~84GB данных моделирования,ALICE   712TB.
  • XRootD (40GB)
 XRootD - это полностью универсальный набор для быстрого, с малым временем ожидания и масштабируемого доступа к данным, который может обслуживать любые типы данных, организованные в виде иерархического пространства имен, подобного файловой системе, на основе концепции каталога. Предназначен  для VO  PANDA.
  • AFS (Andrew File System).
Служба AFS (Andrew File System) предоставляет сетевое хранилище файлов для пользователей, в частности домашних каталогов и пространств проектов. В ЦИВК установлено  7 серверов AFS . Общее пространство AFS  составляет ~12.5 TB
  • NFS
В ЦИВК установлено  5 серверов NFS . Общее пространство NFS  составляет ~11 TB

В состав ЦИВК входит несколько серверов пользователей и
служб ОИЯИ:

batch, WWW, БД mysql и Oracle; e-mail; DNS,мониторинг Nagios, WLCG  и другие. Эти серверы работают с основном на 64-х битных аппаратных Xeon и Opteron.

Программное обеспечение  систем хранения :

  • dCache-3.2
  • Enstore 4.2.2 for tape robot.
  • EOS aquamarine
  • cvmfs
  • CMS Phedex
  • ALICE Vobox
  • UMI-4
  • openafs
  • XROOTD 3 —->EOS for ALICE
  • WLCG  —>UMI-4 for ALICE
  • WLCG grid–environment for the VOs.

Monitoring.

 Для обеспечения правильной и надежной работы оборудования компьютерного комплекса и своевременного предоставления актуальной информации о его работе была разработана специальная система мониторинга.

Мониторинг  позволяет контролировать системы климат-контроля и энергоснабжения, локальное сетевое оборудование, телекоммуникационные линии и вычислительные узлы, выполняемые задания, системы хранения на дисках и ленте и отслеживать работу  всей грид-инфраструктуры ОИЯИ в режиме реального времени.

Количество узлов, включенных в мониторинг, составляет более 1200. Для обеспечения такого обширного мониторинга используется система кластерного мониторинга, основанная на программном обеспечении Icinga2. Визуализация осуществляется с помощью Grafana и NagVis.

Сеть и телекоммуникация.

Одним из наиболее важных компонентов ЦИВК ОИЯИ обеспечивающих доступ к ресурсам и возможность работы с большими данными, является сетевая инфраструктура. В настоящее время в ЦИВК :

  • Local Area Nertwork (LAN) 10Gbps,  запланировано обновление до  100Gbps
  • Wide Area Network (WAN) 100Gbps, 2x10Gbps , 
    
     запланировано обновление   WAN  до 2x100Gbps.