[room] технофашизм

Mykola S. Grechukh nick.grechukh на gmail.com
Чт Окт 15 23:08:53 UTC 2009


Как работает IBM.

Вот, скажем, некий айбиэмовский софт с кусками на коболе. Софт состоит
из пяти компонентов. Лечение заключается в их перезапуске в
определённом порядке, с обязательным ручным  вычищением всех логов и
ошмётков из рабочих директорий. Процедуру повторять до достижения
стабильной работы.

Или даже железо. HS22 блейды из коробки не поддерживают BOFM.
Перепрошиваем фирмварь. После этого advanced management module
рандомно теряет блейды, и при попытке апплаить BOFM говорит для одного
из блейдов "can not connect to BMC". Приходят два айбиэмца с почасовой
оплатой и начинают руководить починкой.

Лечение заключается в следующем:

- прошиваем самую свежую фирмварь в management module. Рестартим
management module
- хм, не помогло
- ребутим management processor потерянного блейда
- хм, всё равно не помогло. ребутим AMM.
- нет пути. Тогда чтобы выяснить проблема в конкретном блейде или
шасси, переставляем потерянный и рабочий
- опа! теперь на двух BMC error!
- переставляем местами потерянный и один из оставшихся
- опа! BMC error на трёх!
- хм. Ребутим management processor на всех блейдах
- рестартим AMM
- опа! у одного блейда потерялся IO module
- опять рестартим management processor на всех
- опять рестартим AMM
- ух ты, всё зелененькое и BOFM апплаится-

А разгадка одна - почасовая оплата.

......

Однако на следующий день баг вылезает опять, с другим блейдом. Но я
уже запомнил процедуру - ДВА ребута AMM с десятиминутным интервалом.
Действительно, воспроизводится вся симптоматика в той же
последовательности, с катарсисом в финале.

--
Mykola Grechukh
RISC Group IT Solutions


Подробная информация о списке рассылки smoke-room