[hpc-devel] Need help: mpich2 setup - проблема найдена

Stanislav Ievlev =?iso-8859-1?q?inger_=CE=C1_altlinux=2Eorg?=
Ср Авг 29 17:13:37 MSD 2007


Проблема оказалась на ровном месте.

На моей машине был не совсем идеальный /etc/hosts
В результате host1 резолвился в 127.0.0.1 из-за чего собственно и сносило
внутренюю логику этой программулины ;)

Выяснилось в результате установки lam, который уже заявил об этом прямым
текстом ;))

Вообще я был сильно удивлён: 
Зачем mpich решил повторить путь lam?
Вроде как openmpi уже не требует запуска никаких демонов в отличие от
своего предка.
А тут не только их внедрили, но ещё и их на питоне написали (при том что mpdboot на C) ...

Неужели демоны, написанные на скриптовых языках не замедляют работу?

On Wed, Aug 29, 2007 at 04:03:09PM +0300, Serge Ryabchun wrote:
> 2007/8/29, Sanislav Ievlev <inger на altlinux.org>:
> > Попробовал собрать mvapich2 (mpich2)
> > для начала в силу отсутствия кластера пробую вариант работы через tcp
> > (сборке говорил просто configure с параметрами по-умолчанию).
> >
> > 1. Есть две машины: на одной работаю сам, вторая - тестовая.
> > На вторую машину можно беспарольно ходить по ssh.
> >
> > С на обоих машинах ~/.mpd.conf с одним и тем же секретом.
> >
> > 2. Запуск локально на каждой машине работает отлично:
> >    $mpdboot
> >    $mpirun -n 3 hostname
> >    $mpdallexit
> >
> > 3. Делаю ~/mpd.hosts, где собственно перечисляю два хоста:
> > --
> >    host1.office.altlinux.ru
> >    host2.office.altlinux.ru
> > --
> >
> > 3. Однако запуск mpd на двух узлах не проходит:
> >    $ mpdboot --debug --verbose -n 2
> >         debug: starting
> >         running mpdallexit on host1.office.altlinux.ru
> >         LAUNCHED mpd on host1.office.altlinux.ru  via
> >         debug: launch cmd= /usr/bin/mpd.py   --ncpus=1 -e -d
> >         debug: mpd on host1.office.altlinux.ru  on port 41954
> >         RUNNING: mpd on host1.office.altlinux.ru
> >         debug: info for running mpd: {'ncpus': 1, 'list_port': 41954,
> >         'entry_port': '', 'host': 'host1.office.altlinux.ru', 'entry_host': '',
> >         'ifhn': ''}
> >         LAUNCHED mpd on host2.office.altlinux.ru  via  host1.office.altlinux.ru
> >         debug: launch cmd= ssh -x -n -q host2.office.altlinux.ru '/usr/bin/mpd.py
> >         -h host1.office.altlinux.ru -p 41954  --ncpus=1 -e -d'
> >         debug: mpd on host2.office.altlinux.ru  on port 52081
> >         mpdboot_host1.office.altlinux.ru (handle_mpd_output 374): failed to ping
> >         mpd on host2.office.altlinux.ru; recvd output={}
> 
> ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
> Вот это очень похоже на другую систему - scali
> chkconfig xinetd on
> chkconfig echo on
> chkconfig echo-udp on
> service xinetd restart
> 
> я долго смеялся, но вот такое оно ;-), как здесь не знаю, но тоже может быть
> также
> _______________________________________________
> Hpc-devel mailing list
> Hpc-devel на lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/hpc-devel



Подробная информация о списке рассылки HPC-devel