[Hardware] Q: Intel SRCU42X RAID card (LSI Logic MegaRAID SCSI 320-2X)

Dmitry Lebkov dima на sakhalin.ru
Пт Дек 1 10:22:15 MSK 2006


Dmitry Lebkov wrote:
> Dmitry Lebkov wrote:
>> Konstantin A. Lepikhov wrote:
>>> Hi Dmitry!
>>>
>>> Saturday 22, at 02:40:37 PM you wrote:
>>>
>>> <skip>
>>>
>>>>>>> такая же фигня - гоняешь/нагружаешь работает, а потом вруг падает в самый
>>>>>>> неподходящий момент (падение - либо просто виснет и не ициализируется при
>>>>>>> перезагрузке, либо вываливаются винты из массива). У меня это был
>>>>>>> MegaRAID
>>>>>>> Elite 1600. При этом замечено, что чаще это происходило с новым драйвером
>>>>>>> megaraid2, со старым могло работать год и не падать. В общем, пакость эти
>>>>>>> мегарайды.
>>>>>> Таки проблема решилась добавлением в /etc/modules.conf вот такой строчки:
>>>>>>
>>>>>> options megaraid_mbox cmd_per_lun=0
>>>>>>
>>>>>> После этого аномалий в поведении незамечено.
>>>>> Таки оно "выстрелило". :((( На том же железе. Симптомы те же. Система
>>>>> без проблем работала до вчерашнего дня. 400Gb RAID-массив заполнен
>>>>> примерно на на четверть.
>>>>>
>>>>> Решения проблемы найти пока не удалось :( С дисками в RAID'е проблем
>>>>> нет. Контролеер менял на такой же, из ЗИПа. Не помогло.
>>>>>
>>>>> # uname -a
>>>>> Linux nf.skh 2.4.32-std-smp-alt1 #1 SMP Mon Dec 26 17:52:02 MSK 2005 i686 GNU/Linux
>>>>>
>>>>> # lsmod | grep megaraid
>>>>> megaraid2              36796   3
>>>>>
>>>> Но на 2.6.16-std26-smp-alt2 этот контроллер запустился и работает под нагрзукой
>>>> уже часа 2. Без cmd_per_lun=0.
>>> нет, надо бы сутки его погонять. 2 часа - слишком маленький интервал.
>> На 2.4.32-std-smp-alt1 и 2.6.14-vs26-smp-alt2.1 под такой же нагрузкой валится
>> через пару минут. Так что прогресс имеет место быть. ;) Вот только что проверил:
>> uptime 16 часов, нагрузка та же - пока всё работает.
> 
> Таки сдохла зверушка через 5 дней аптайма и работы под той же нагрузкой. Похоже,
> не жилец оно ... :( Придется искать чего-то более другое ...

Just FYI:

MegaRAID SCSI 320- 0X/2x/4x

                                        Current Version         Previous Version
                                        ===============         ===============
Firmware Version:                       414E                    414C
BIOS Version:                           H431                    H429
Ctrl+M Version:                         U828                    U827
Boot Block Version:                     D.2.2.1                 V2.2.0


Major Firmware Changes since last release:
==========================================

1.      Delayed write parity data corruption
2.      Patrol Read with Media Errors on R50
3.      320-0x usage in ZCR platforms w/ 22320 HBA
4.      WebBios Update
5.      Data Corruption while running I/O in Degraded mode
6.      Data Corruption (System Event ID 55) under RMW-WT
7.      System hangs with NUM_TIMER_REQS EXHAUSTED


Вот по граблям из пункта 5 недавно прошелся очень хорошо, блин ... =\
Надо будет поменять прошивку да погонять эту железку еще раз ...

-- 
WBR, Dmitry Lebkov


Подробная информация о списке рассылки Hardware