[hpc-devel] I: результаты очередной проверки на кластере
Stanislav Ievlev
=?iso-8859-1?q?stanislav=2Eievlev_=CE=C1_gmail=2Ecom?=
Чт Янв 24 17:15:50 MSK 2008
Всем привет!
Сегодня мы наконец-таки добрались до кластера и посмотрели как там
живёт ALT Linux (ходят слухи, что на следующей недели мы сможем
наконец увидеть железку и тогда дела пойдут быстрее ;) ).
Из нового: поставили одну машину с CD, а вторую загрузили как
бездисковую станцию( воспользовались mknfsroot, настроили dhcp,
остальное из коробки), проверили сразу две реализации MPI: openmpi и
mvapich2.
Вот подробное описание произошедшего:
система:
* не хватает в системе установленных devel-частей от libibverbs и libibumad.
* кажется dhcpd по умолчанию off, надо бы уточнить.
Итого: Добавим недостающее. Ещё говорят полезно иметь несколько
реализаций одновременно посему надо собрать ещё mvapich, mpi-selector
и повесить на него все эти реализации. Правильно ли я понимаю, что
mpi-selector, позволяет каждому пользователю сделать индивидуальные
настройки?
ядро:
* автоматом загрузилось mlx4_core.
* ручками загружали mlx4_ib ib_uverbs, ib_umad.
* имеющихся правил udev хватило чтобы автоматом создать необходимые
файлы в /dev для infiniband.
Итого: надо понять почему не загрузилось автоматом mlx4_ib и что с
этим делать (может быть зависимости в модулях подправить лучше).
Оставшиеся два модуля видимо надо прописать в /etc/modutils.d. Не знаю
точно как там это делается, но в идеале было бы здорово добавить их в
зависимость к mlx4_ib, чтобы не делать "тупой" загрузки каждый раз.
mknfsroot
* надо добавить драйвер e1000. А вообще надо бы чтобы mkinitrd начал
принимать список модулей, а не только серию --with-module ...
* была одна плюха ошибка в настройках mca для openmpi. В системе
дисковой было blt = openib, а в nfsroot - blt = tcp. Ну это мелкий
косяк по забывчивости.
* кажется схватился /etc/mtab из хост системы, надо бы его сделать
как и для livecd, симлинком на /proc/mounts.
* для теста не пользовались bind, использовали только /etc/hosts.
Надо бы копировать /etc/hosts из хост-системы в создаваемый nfsroot.
Итого: мелкие косяки в mknfsroot поправим.
Что ещё остаётся:
Антон, надо бы решить вопрос по получению исходного кода драйвера для Панасуса.
Дополнительные вопросы:
Вопрос ко всем: Использует ли кто bind на кластерах или предпочтение
отдаётся /etc/hosts? Может быть вообще убрать bind из состава
дистрибутива за ненадобностью?
Вопрос к Алесандру Наумову: Как называются тесты производительности,
которые мы смотрели? Откуда их брать?
Вопросы к Александру Московскому:
Какой коммерческий софт стоит проверить на совместимость с
дистрибутивом? Наверное уже стоит потихоньку начинать переговоры с
фирмами о проведении подобного тестирования.
Стоит наверное потихоньку начинать тестировать и интегрировать в
дистрибутив софт, входящий в программу СКИФ.
--
Ну вот и всё ;)
Станислав Иевлев.
Подробная информация о списке рассылки HPC-devel