[hpc-devel] Q: логи

Serge Ryabchun =?iso-8859-1?q?serge=2Eryabchun_=CE=C1_gmail=2Ecom?=
Вт Сен 25 14:24:16 MSD 2007


25.09.07, Stanislav Ievlev<stanislav.ievlev на gmail.com> написал(а):
> Привет всем!
>
> Вопрос про рассылку логов по сети возник при обсуждении бездисковых
> узлов, но я так догадываюсь что это актуально и для дисковых тоже.
>
> Расскажите. Это действительно удобнее в кластере чтобы логи с узлов
> рассылались по сети и собирались воедино на главном узле?

Да, особенно с учетом того, что netconsole успевает сбросить предсмертный дамп,
что очень серьзно помогает в разборе полетов.
Фактически кластерный комплекс нужно рассматривать как нечто, что всегда
может сломаться. При наличии IPMI или чего похожего всегда есть возможность
перегрузить узел удаленно без необходимости нести свою задницу на место
происшествия, но для этого нужно иметь возможность понять, что произошло.

> Не мешает ли, что в логах получается каша с разных узлов или это всё с
> лихвой компенсируется какими-то средствами?

Мешает конечно, вообще-то здесь нужен специализированный syslogd,
который умеет складывать в log/hostname/*, но до этого руки не доходят,
никто о таком не слышал?
Мы это читаем с помощью grep, через пень колоду, но миримся.
А так, что делать, если узел по ssh не доступен, но пингуется, а там
просто оомкиллер снес sshd и syslog? Т.е., фиг знает, перегрев,
отказ дивайса, память пошла лесом или NMI на процессоре вылез


Подробная информация о списке рассылки HPC-devel