[Comm] [Sysadmins] зависание сервера (логи, сбор информации)

Michael Shigorin =?iso-8859-1?q?mike_=CE=C1_osdn=2Eorg=2Eua?=
Вт Сен 9 13:17:25 MSD 2008


On Mon, Sep 08, 2008 at 10:04:18AM +0400, master altlinux wrote:
> > PS: Вам обязательно сидеть на Master 2.4 и ядрах 2.4.x?
> Да обязательно. ППО которое работает на данных серверах не
> стабильно функционирует на ядрах 2.6

Ого.  Я бы такому и на 2.4 не слишком доверял.
(это не та j2me случайно?)

> Версии биоса перепроверено и настроено одинаково. На остальных
> серверах где НЕТ raid 5 уровня и работает софтовый райд массив
> (зеркалка) таких проблем нет.  Сейчас если разрешат буду
> эксперементировать с аппаратной частью (вытаскивать
> дополнительные платы).

Есть ли возможность поднять с таким железом стенд
и экспериментировать на нём?

Есть ли возможность использовать не raid5, а raid1/10?

> В логах отсуствует какой-либо kernel panic. Каким образом
> посмотреть дамп vga.

Насколько понимаю, никаким -- только заранее подключить
и задействовать serial console...

> Сейчас ситуация такова, что при активной дисковой активности
> либо вешается сервер либо перегружается.

Попробуйте ещё параметры загрузки (по очереди/вместе, лучше
на стенде -- может измениться распределение прерываний, см.
/proc/interrupts):

noapic
nolapic
pci=noacpi

> Но все эти проблемы на одном из работающих блоков российской
> АЭС.  Мощность на блоке сейчас 104% (так положено по плану).
> Система естественно дублирована. Но для разрешения проблем мне
> сейчас придется один комплект выключать т.е. система будет
> только на одном комплекте.

Лучше такой же стенд -- или заменная система со стенда, которая
прошла тесты и может быть введена вместо резервного комплекта,
пока он в тестировании.

> Я то теряю время, но вам лучше помолиться за меня.

Это имя надо знать... по технической же части -- можете
попробовать связаться с ООО Альт Линукс насчёт диагностики
данной ситуации по отдельному договору (support@).

Также замечу, что у некоторых коллег по конторе (magic.kiev.ua)
есть опыт разработки отказоустойчивого ПО, которое вроде и
посейчас работает как минимум на одной украинской АЭС.
Опытные руки по аппаратному обеспечению тоже есть.
Если надо -- обращайтесь.

-- 
 ---- WBR, Michael Shigorin <mike на altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/



Подробная информация о списке рассылки community