[Hardware] Кто-нибудь имеет статистику по эффективности nmi_watchdog?

Пн Июл 5 21:39:14 MSD 2004

On Monday 05 July 2004 06:24 am, Sergey Vlasov wrote:
> On Sun, Jul 04, 2004 at 08:56:52PM -0400, Ivan Adzhubey wrote:
> > Это все так, в теории, но вот я неполенился сходить на работу посмотреть
> > на умершую ноду. На консоли написано: NMI Watchdog detected lockup on
> > CPU0, потом идет дамп регистров и в конце: Shutting up console... И все,
> > висим. То есть watchdog вроде бы сработал, но почему машину не
> > перегрузил?? В параметрах загрузки ядра стоит: panic=30, то есть должны
> > через тридцать секунд после oops'а перегрузиться автоматом. Фиг вам. И
> > как это понимать?
>
> Там делается не panic, а do_exit(SIGSEGV) - т.е., если зависание произошло
> в контексте какого-либо процесса, убивается только этот процесс.  Впрочем,
> убивается он достаточно грубо, так что система всё равно вряд ли продолжит
> работу после этого.

Угу, я уже сам слазил в исходники и посмотрел. А документация на сайте RedHat 
врет...

> nmi_watchdog - это в первую очередь отладочный инструмент; по выданному в
> результате его срабатывания backtrace нужно смотреть, на чём именно
> повисло (как правило, это какой-то spinlock), и по этим данным искать
> ошибку.

Значит попробуем softdog. Но как я понимаю, к модулю кернеля нужен еще и 
userspace daemon, а в Сизифе ничего такого нет. Да и вообще, кроме старого 
дебиановского проекта watchdog я ничего в сети не нашел, как не старался. Не 
ставить же HA-linux только ради этого демона. Грустная картина. Неужто ни у 
кого серверы не виснут?

-- 
Иван