[hpc-devel] Q: беспарольные пользователи на множественных узлах
Serge Ryabchun
=?iso-8859-1?q?serge=2Eryabchun_=CE=C1_gmail=2Ecom?=
Ср Авг 29 01:40:30 MSD 2007
2007/8/29, Alexander A. Naumov <alexander.naumov на t-platforms.ru>:
> Сереж, спасибо большое.
> Но lustre ведь будет нагружать ib, так?
> То есть счетные задачи могут замедляться?
Нет ;-). Больше, чем могут пропустить через себя OSS-ы, а у нас это
4 узла и всего 4 порта, они от коммутатора не отъедают. Соответственно,
это всего 4/80. Для MPI это не заметно ни на глаз, ни по тестам.
Единственный случай, когда делается
touch /.cluster/root/.nolustre
reboot_nodes
это для Linpack, но, сам знаеш, вид спорта такой, здесь каждый
лишний байт оперативки требуется и требуется убрать каждый
лишний процесс из шедулинга ;-).
PS. просадка вычислений от read( fd, buffer, sizeof(buffer)) на узле с NFS
куда больше. Вот та ./war, что была в примере, запущена сейчас на, ага,
она в двух вариантах сейчас идет:
6474 scit3 bog ru R 10:08:03 15 n[3010-3022,3029-3030]
6484 scit3 war ru R 3:07:54 17
n[3004-3009,3031-3035,3043-3048]
исходные данные для нее обычно 80-300GB, временные файлы 1-4TB.
Поверх IB она как становится на 100% CPU, так и идет до конца 3-4 недели,
на других вариантах общих FS - 20-40% CPU и несколько месяцев.
Подробная информация о списке рассылки HPC-devel