[hpc-devel] Q: беспарольные пользователи на множественных узлах

Ср Авг 29 01:40:30 MSD 2007

2007/8/29, Alexander A. Naumov <alexander.naumov на t-platforms.ru>:
> Сереж, спасибо большое.
> Но lustre ведь будет нагружать ib, так?
> То есть счетные задачи могут замедляться?

Нет ;-). Больше, чем могут пропустить через себя OSS-ы, а у нас это
4 узла и всего 4 порта, они от коммутатора не отъедают. Соответственно,
это всего 4/80. Для MPI это не заметно ни на глаз, ни по тестам.

Единственный случай, когда делается
touch /.cluster/root/.nolustre
reboot_nodes
это для Linpack, но, сам знаеш, вид спорта такой, здесь каждый
лишний байт оперативки требуется и требуется убрать каждый
лишний процесс из шедулинга ;-).

PS. просадка вычислений от read( fd, buffer, sizeof(buffer)) на узле с NFS
куда больше. Вот та ./war, что была в примере, запущена сейчас на, ага,
она в двух вариантах сейчас идет:
   6474     scit3      bog       ru   R   10:08:03     15 n[3010-3022,3029-3030]
   6484     scit3      war       ru   R    3:07:54     17
n[3004-3009,3031-3035,3043-3048]
исходные данные для нее обычно 80-300GB, временные файлы 1-4TB.
Поверх IB она как становится на 100% CPU, так и идет до конца 3-4 недели,
на других вариантах общих FS - 20-40% CPU и несколько месяцев.