[Sysadmins] Рассыпался LVM

Anton Farygin rider на altlinux.com
Ср Июн 8 11:08:17 UTC 2011


RAID контроллер аппаратный ? Он сам то RAID видит, и что в его логах ?

RAID какой был ?

08.06.2011 14:59, Yuri Khachaturyan пишет:
> Очень похоже что именно в контроллере, только понять бы в каком - в
> SCSI карте или контроллере самого массива.
>
> Вот что произошло изначально:
>
> bash-3.2# grep kernel /var/log/messages |less
>
> Jun  5 04:12:54 bacula kernel: [135577.144376] Buffer I/O error on
> device dm-0, logical block 0
> Jun  5 04:12:54 bacula kernel: [135577.144379] lost page write due to
> I/O error on dm-0
> Jun  5 04:12:54 bacula kernel: [135577.144412] EXT4-fs error (device
> dm-0): ext4_find_entry:933: inode #431883054: comm rsync: reading
> directory lblock 0
> Jun  5 04:12:54 bacula kernel: [135577.144498] EXT4-fs error (device
> dm-0): ext4_find_entry:933: inode #431883283: comm rsync: reading
> directory lblock 0
> Jun  5 04:15:54 bacula kernel: [135757.152338] sd 7:0:2:2: timing out
> command, waited 180s
> Jun  5 04:15:54 bacula kernel: [135757.152349] sd 7:0:2:2: [sdg]
> Unhandled error code
> Jun  5 04:15:54 bacula kernel: [135757.152352] sd 7:0:2:2: [sdg]
> Result: hostbyte=DID_OK driverbyte=DRIVER_OK
> Jun  5 04:15:54 bacula kernel: [135757.152357] sd 7:0:2:2: [sdg] CDB:
> Read(10): 28 00 1f 75 d6 90 00 00 02 00
> Jun  5 04:15:54 bacula kernel: [135757.152370] end_request: I/O error,
> dev sdg, sector 2111265344
> Jun  5 04:15:54 bacula kernel: [135757.152406] EXT4-fs (dm-0):
> previous I/O error to superblock detected
>
> Потом вот такое началось:
>
> Jun  5 14:05:18 bacula kernel: [171120.864593] scsi7: At time of
> recovery, card was not paused
> Jun  5 14:05:18 bacula kernel: [171120.864601]>>>>>>>>>>>>>>>>>>  Dump
> Card State Begins<<<<<<<<<<<<<<<<<
> Jun  5 14:05:18 bacula kernel: [171120.864602] scsi7: Dumping Card
> State at program address 0x1ce Mode 0x11
> Jun  5 14:05:18 bacula kernel: [171120.864605] Card was paused
> Jun  5 14:05:18 bacula kernel: [171120.864608] INTSTAT[0x0]
> SELOID[0x2] SELID[0x20]
> Jun  5 14:05:18 bacula kernel: [171120.864618] HS_MAILBOX[0x0]
> INTCTL[0x80] SEQINTSTAT[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864628] SAVED_MODE[0x11] DFFSTAT[0x11]
> Jun  5 14:05:18 bacula kernel: [171120.864635] SCSISIGI[0x4]
> SCSIPHASE[0x0] SCSIBUS[0x1]
> Jun  5 14:05:18 bacula kernel: [171120.864645] LASTPHASE[0x80]
> SCSISEQ0[0x0] SCSISEQ1[0x12]
> Jun  5 14:05:18 bacula kernel: [171120.864654] SEQCTL0[0x10]
> SEQINTCTL[0x0] SEQ_FLAGS[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864664] SEQ_FLAGS2[0x4]
> QFREEZE_COUNT[0xcf43]
> Jun  5 14:05:18 bacula kernel: [171120.864673]
> KERNEL_QFREEZE_COUNT[0xcf43] MK_MESSAGE_SCB[0xff00]
> Jun  5 14:05:18 bacula kernel: [171120.864681] MK_MESSAGE_SCSIID[0xff]
> SSTAT0[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864688] SSTAT1[0x0] SSTAT2[0x0]
> SSTAT3[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864698] PERRDIAG[0xc0]
> SIMODE1[0xac] LQISTAT0[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864707] LQISTAT1[0x0]
> LQISTAT2[0x0] LQOSTAT0[0x0]
> Jun  5 14:05:18 bacula kernel: [171120.864716] LQOSTAT1[0x0] LQOSTAT2[0x80]
> Jun  5 14:05:18 bacula kernel: [171120.864732]
> Jun  5 14:05:18 bacula kernel: [171120.864733] SCB Count = 12
> CMDS_PENDING = 1 LASTSCB 0x1 CURRSCB 0x1 NEXTSCB 0x0
> Jun  5 14:05:18 bacula kernel: [171120.864743] qinstart = 53623
> qinfifonext = 53623
> Jun  5 14:05:18 bacula kernel: [171120.864745] QINFIFO:
> Jun  5 14:05:18 bacula kernel: [171120.864752] WAITING_TID_QUEUES:
> Jun  5 14:05:18 bacula kernel: [171120.864766] Pending list:
> Jun  5 14:05:18 bacula kernel: [171120.864771]   1 FIFO_USE[0x0]
> SCB_CONTROL[0x60] SCB_SCSIID[0x27]
> Jun  5 14:05:18 bacula kernel: [171120.864783] Total 1
> Jun  5 14:05:18 bacula kernel: [171120.864785] Kernel Free SCB list: 4
> 11 6 7 5 2 0 3 10 9 8
> Jun  5 14:05:18 bacula kernel: [171120.864796] Sequencer Complete
> DMA-inprog list:
> Jun  5 14:05:18 bacula kernel: [171120.864801] Sequencer Complete list:
> Jun  5 14:05:18 bacula kernel: [171120.864806] Sequencer DMA-Up and
> Complete list:
> Jun  5 14:05:18 bacula kernel: [171120.864811] Sequencer On QFreeze
> and Complete list:
>
> И закончилось вот этим:
>
> Jun  7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0: rejecting
> I/O to offline device
> Jun  7 18:57:02 bacula kernel: [361424.269675] EXT4-fs (dm-0):
> previous I/O error to superblock detected
> Jun  7 18:57:02 bacula kernel: [361424.269685] sd 7:0:2:0: rejecting
> I/O to offline device
> Jun  7 18:57:02 bacula kernel: [361424.269694] EXT4-fs error (device
> dm-0): ext4_find_entry:933: inode #2: comm bash: reading directory
> lblock 0
>
> После чего система все 3 раздела потеряла и нашла после перезагрузки и
> не с первого раза.
>
>
> 8 июня 2011 г. 14:56 пользователь Anton Farygin<rider на altlinux.com>  написал:
>> Подозреваю, что никак.
>> По хорошему не надо было трогать lv и смотреть что на физических дисках.
>>
>> Теперь там явно какая-то хрень.
>>
>> Но я подозреваю что дело даже не в этом, а в RAID контроллере, скорее всего
>> он тебе данные попортил.
>>
>>
>>
>> 08.06.2011 14:44, Yuri Khachaturyan пишет:
>>>
>>> Наблюдалось - переклинило контроллер на самом аппаратном массиве.
>>> Вылечилось перезагрузкой.
>>> Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом
>>> стал определяться... Вот теперь думаю как вытащить оттуда данные...
>>>
>>> 8 июня 2011 г. 14:43 пользователь Michael Shigorin<mike на osdn.org.ua>
>>>   написал:
>>>>
>>>> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
>>>>>
>>>>> После какого-то непонятного сбоя (система ругалась на EXT4
>>>>> filesystem IO error)
>>>>
>>>> В dmesg случайно ничего про железо не наблюдалось?
>>>>
>>>> (я тут хорошо побился головой об стенку за ту неделю,
>>>> сочтя программные грабли за аппаратные -- с очень схожими
>>>> симптомами и после починки заведомо аппаратных...)
>>>>
>>>> --
>>>>   ---- WBR, Michael Shigorin<mike на altlinux.ru>
>>>>   ------ Linux.Kiev http://www.linux.kiev.ua/
>>>> _______________________________________________
>>>> Sysadmins mailing list
>>>> Sysadmins на lists.altlinux.org
>>>> https://lists.altlinux.org/mailman/listinfo/sysadmins
>>>>
>>>
>>>
>>>
>>
>>
>> _______________________________________________
>> Sysadmins mailing list
>> Sysadmins на lists.altlinux.org
>> https://lists.altlinux.org/mailman/listinfo/sysadmins
>>
>
>
>




Подробная информация о списке рассылки Sysadmins