[hpc-devel] Need help: mpich2 setup - проблема найдена
Stanislav Ievlev
=?iso-8859-1?q?inger_=CE=C1_altlinux=2Eorg?=
Ср Авг 29 17:13:37 MSD 2007
Проблема оказалась на ровном месте.
На моей машине был не совсем идеальный /etc/hosts
В результате host1 резолвился в 127.0.0.1 из-за чего собственно и сносило
внутренюю логику этой программулины ;)
Выяснилось в результате установки lam, который уже заявил об этом прямым
текстом ;))
Вообще я был сильно удивлён:
Зачем mpich решил повторить путь lam?
Вроде как openmpi уже не требует запуска никаких демонов в отличие от
своего предка.
А тут не только их внедрили, но ещё и их на питоне написали (при том что mpdboot на C) ...
Неужели демоны, написанные на скриптовых языках не замедляют работу?
On Wed, Aug 29, 2007 at 04:03:09PM +0300, Serge Ryabchun wrote:
> 2007/8/29, Sanislav Ievlev <inger на altlinux.org>:
> > Попробовал собрать mvapich2 (mpich2)
> > для начала в силу отсутствия кластера пробую вариант работы через tcp
> > (сборке говорил просто configure с параметрами по-умолчанию).
> >
> > 1. Есть две машины: на одной работаю сам, вторая - тестовая.
> > На вторую машину можно беспарольно ходить по ssh.
> >
> > С на обоих машинах ~/.mpd.conf с одним и тем же секретом.
> >
> > 2. Запуск локально на каждой машине работает отлично:
> > $mpdboot
> > $mpirun -n 3 hostname
> > $mpdallexit
> >
> > 3. Делаю ~/mpd.hosts, где собственно перечисляю два хоста:
> > --
> > host1.office.altlinux.ru
> > host2.office.altlinux.ru
> > --
> >
> > 3. Однако запуск mpd на двух узлах не проходит:
> > $ mpdboot --debug --verbose -n 2
> > debug: starting
> > running mpdallexit on host1.office.altlinux.ru
> > LAUNCHED mpd on host1.office.altlinux.ru via
> > debug: launch cmd= /usr/bin/mpd.py --ncpus=1 -e -d
> > debug: mpd on host1.office.altlinux.ru on port 41954
> > RUNNING: mpd on host1.office.altlinux.ru
> > debug: info for running mpd: {'ncpus': 1, 'list_port': 41954,
> > 'entry_port': '', 'host': 'host1.office.altlinux.ru', 'entry_host': '',
> > 'ifhn': ''}
> > LAUNCHED mpd on host2.office.altlinux.ru via host1.office.altlinux.ru
> > debug: launch cmd= ssh -x -n -q host2.office.altlinux.ru '/usr/bin/mpd.py
> > -h host1.office.altlinux.ru -p 41954 --ncpus=1 -e -d'
> > debug: mpd on host2.office.altlinux.ru on port 52081
> > mpdboot_host1.office.altlinux.ru (handle_mpd_output 374): failed to ping
> > mpd on host2.office.altlinux.ru; recvd output={}
>
> ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
> Вот это очень похоже на другую систему - scali
> chkconfig xinetd on
> chkconfig echo on
> chkconfig echo-udp on
> service xinetd restart
>
> я долго смеялся, но вот такое оно ;-), как здесь не знаю, но тоже может быть
> также
> _______________________________________________
> Hpc-devel mailing list
> Hpc-devel на lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/hpc-devel
Подробная информация о списке рассылки HPC-devel