[hpc-devel] I: результаты очередной проверки на кластере

Stanislav Ievlev =?iso-8859-1?q?stanislav=2Eievlev_=CE=C1_gmail=2Ecom?=
Чт Янв 24 17:15:50 MSK 2008


Всем привет!

Сегодня мы наконец-таки добрались до кластера и посмотрели как там
живёт  ALT Linux (ходят слухи, что на следующей недели мы сможем
наконец увидеть железку и тогда дела пойдут быстрее ;) ).

Из нового: поставили одну машину с CD, а вторую загрузили как
бездисковую станцию( воспользовались mknfsroot, настроили dhcp,
остальное из коробки), проверили сразу две реализации MPI: openmpi и
mvapich2.

Вот подробное описание произошедшего:

система:
* не хватает в системе установленных devel-частей от libibverbs и libibumad.
* кажется dhcpd по умолчанию off, надо бы уточнить.

Итого: Добавим недостающее. Ещё говорят полезно иметь несколько
реализаций одновременно посему надо собрать ещё mvapich, mpi-selector
и повесить на него все эти реализации. Правильно ли я понимаю, что
mpi-selector, позволяет каждому пользователю сделать индивидуальные
настройки?

ядро:
 * автоматом загрузилось mlx4_core.
 * ручками загружали mlx4_ib ib_uverbs, ib_umad.
 * имеющихся правил udev хватило чтобы автоматом создать необходимые
файлы в /dev для infiniband.

Итого: надо понять почему не загрузилось автоматом mlx4_ib и что с
этим делать (может быть зависимости в модулях подправить лучше).
Оставшиеся два модуля видимо надо прописать в /etc/modutils.d. Не знаю
точно как там это делается, но в идеале было бы здорово добавить их в
зависимость к mlx4_ib, чтобы не делать "тупой" загрузки каждый раз.

mknfsroot
  * надо добавить драйвер e1000. А вообще надо бы чтобы mkinitrd начал
принимать список модулей, а не только серию --with-module ...
 * была одна плюха ошибка в настройках mca для openmpi. В системе
дисковой было blt = openib, а в nfsroot - blt = tcp. Ну это мелкий
косяк по забывчивости.
 * кажется схватился /etc/mtab из хост системы, надо бы его сделать
как и для livecd, симлинком на /proc/mounts.
 * для теста не пользовались bind, использовали только /etc/hosts.
Надо бы копировать /etc/hosts из хост-системы в создаваемый nfsroot.

Итого: мелкие косяки в mknfsroot поправим.

Что ещё остаётся:

Антон, надо бы решить вопрос по получению исходного кода драйвера для Панасуса.

Дополнительные вопросы:

Вопрос ко всем: Использует ли кто bind на кластерах или предпочтение
отдаётся /etc/hosts? Может быть вообще убрать bind из состава
дистрибутива за ненадобностью?

Вопрос к Алесандру Наумову: Как называются тесты производительности,
которые мы смотрели? Откуда их брать?

Вопросы к Александру Московскому:
Какой коммерческий софт стоит проверить на совместимость с
дистрибутивом? Наверное уже стоит потихоньку начинать переговоры с
фирмами о проведении подобного тестирования.
Стоит наверное потихоньку начинать тестировать и интегрировать в
дистрибутив софт, входящий в программу СКИФ.

--
Ну вот и всё ;)
Станислав Иевлев.


Подробная информация о списке рассылки HPC-devel