[Sysadmins] Рассыпался LVM

Yuri Khachaturyan yukh на yukh.ru
Ср Июн 8 10:59:05 UTC 2011


Очень похоже что именно в контроллере, только понять бы в каком - в
SCSI карте или контроллере самого массива.

Вот что произошло изначально:

bash-3.2# grep kernel /var/log/messages |less

Jun  5 04:12:54 bacula kernel: [135577.144376] Buffer I/O error on
device dm-0, logical block 0
Jun  5 04:12:54 bacula kernel: [135577.144379] lost page write due to
I/O error on dm-0
Jun  5 04:12:54 bacula kernel: [135577.144412] EXT4-fs error (device
dm-0): ext4_find_entry:933: inode #431883054: comm rsync: reading
directory lblock 0
Jun  5 04:12:54 bacula kernel: [135577.144498] EXT4-fs error (device
dm-0): ext4_find_entry:933: inode #431883283: comm rsync: reading
directory lblock 0
Jun  5 04:15:54 bacula kernel: [135757.152338] sd 7:0:2:2: timing out
command, waited 180s
Jun  5 04:15:54 bacula kernel: [135757.152349] sd 7:0:2:2: [sdg]
Unhandled error code
Jun  5 04:15:54 bacula kernel: [135757.152352] sd 7:0:2:2: [sdg]
Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jun  5 04:15:54 bacula kernel: [135757.152357] sd 7:0:2:2: [sdg] CDB:
Read(10): 28 00 1f 75 d6 90 00 00 02 00
Jun  5 04:15:54 bacula kernel: [135757.152370] end_request: I/O error,
dev sdg, sector 2111265344
Jun  5 04:15:54 bacula kernel: [135757.152406] EXT4-fs (dm-0):
previous I/O error to superblock detected

Потом вот такое началось:

Jun  5 14:05:18 bacula kernel: [171120.864593] scsi7: At time of
recovery, card was not paused
Jun  5 14:05:18 bacula kernel: [171120.864601] >>>>>>>>>>>>>>>>>> Dump
Card State Begins <<<<<<<<<<<<<<<<<
Jun  5 14:05:18 bacula kernel: [171120.864602] scsi7: Dumping Card
State at program address 0x1ce Mode 0x11
Jun  5 14:05:18 bacula kernel: [171120.864605] Card was paused
Jun  5 14:05:18 bacula kernel: [171120.864608] INTSTAT[0x0]
SELOID[0x2] SELID[0x20]
Jun  5 14:05:18 bacula kernel: [171120.864618] HS_MAILBOX[0x0]
INTCTL[0x80] SEQINTSTAT[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864628] SAVED_MODE[0x11] DFFSTAT[0x11]
Jun  5 14:05:18 bacula kernel: [171120.864635] SCSISIGI[0x4]
SCSIPHASE[0x0] SCSIBUS[0x1]
Jun  5 14:05:18 bacula kernel: [171120.864645] LASTPHASE[0x80]
SCSISEQ0[0x0] SCSISEQ1[0x12]
Jun  5 14:05:18 bacula kernel: [171120.864654] SEQCTL0[0x10]
SEQINTCTL[0x0] SEQ_FLAGS[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864664] SEQ_FLAGS2[0x4]
QFREEZE_COUNT[0xcf43]
Jun  5 14:05:18 bacula kernel: [171120.864673]
KERNEL_QFREEZE_COUNT[0xcf43] MK_MESSAGE_SCB[0xff00]
Jun  5 14:05:18 bacula kernel: [171120.864681] MK_MESSAGE_SCSIID[0xff]
SSTAT0[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864688] SSTAT1[0x0] SSTAT2[0x0]
SSTAT3[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864698] PERRDIAG[0xc0]
SIMODE1[0xac] LQISTAT0[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864707] LQISTAT1[0x0]
LQISTAT2[0x0] LQOSTAT0[0x0]
Jun  5 14:05:18 bacula kernel: [171120.864716] LQOSTAT1[0x0] LQOSTAT2[0x80]
Jun  5 14:05:18 bacula kernel: [171120.864732]
Jun  5 14:05:18 bacula kernel: [171120.864733] SCB Count = 12
CMDS_PENDING = 1 LASTSCB 0x1 CURRSCB 0x1 NEXTSCB 0x0
Jun  5 14:05:18 bacula kernel: [171120.864743] qinstart = 53623
qinfifonext = 53623
Jun  5 14:05:18 bacula kernel: [171120.864745] QINFIFO:
Jun  5 14:05:18 bacula kernel: [171120.864752] WAITING_TID_QUEUES:
Jun  5 14:05:18 bacula kernel: [171120.864766] Pending list:
Jun  5 14:05:18 bacula kernel: [171120.864771]   1 FIFO_USE[0x0]
SCB_CONTROL[0x60] SCB_SCSIID[0x27]
Jun  5 14:05:18 bacula kernel: [171120.864783] Total 1
Jun  5 14:05:18 bacula kernel: [171120.864785] Kernel Free SCB list: 4
11 6 7 5 2 0 3 10 9 8
Jun  5 14:05:18 bacula kernel: [171120.864796] Sequencer Complete
DMA-inprog list:
Jun  5 14:05:18 bacula kernel: [171120.864801] Sequencer Complete list:
Jun  5 14:05:18 bacula kernel: [171120.864806] Sequencer DMA-Up and
Complete list:
Jun  5 14:05:18 bacula kernel: [171120.864811] Sequencer On QFreeze
and Complete list:

И закончилось вот этим:

Jun  7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0: rejecting
I/O to offline device
Jun  7 18:57:02 bacula kernel: [361424.269675] EXT4-fs (dm-0):
previous I/O error to superblock detected
Jun  7 18:57:02 bacula kernel: [361424.269685] sd 7:0:2:0: rejecting
I/O to offline device
Jun  7 18:57:02 bacula kernel: [361424.269694] EXT4-fs error (device
dm-0): ext4_find_entry:933: inode #2: comm bash: reading directory
lblock 0

После чего система все 3 раздела потеряла и нашла после перезагрузки и
не с первого раза.


8 июня 2011 г. 14:56 пользователь Anton Farygin <rider на altlinux.com> написал:
> Подозреваю, что никак.
> По хорошему не надо было трогать lv и смотреть что на физических дисках.
>
> Теперь там явно какая-то хрень.
>
> Но я подозреваю что дело даже не в этом, а в RAID контроллере, скорее всего
> он тебе данные попортил.
>
>
>
> 08.06.2011 14:44, Yuri Khachaturyan пишет:
>>
>> Наблюдалось - переклинило контроллер на самом аппаратном массиве.
>> Вылечилось перезагрузкой.
>> Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом
>> стал определяться... Вот теперь думаю как вытащить оттуда данные...
>>
>> 8 июня 2011 г. 14:43 пользователь Michael Shigorin<mike на osdn.org.ua>
>>  написал:
>>>
>>> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote:
>>>>
>>>> После какого-то непонятного сбоя (система ругалась на EXT4
>>>> filesystem IO error)
>>>
>>> В dmesg случайно ничего про железо не наблюдалось?
>>>
>>> (я тут хорошо побился головой об стенку за ту неделю,
>>> сочтя программные грабли за аппаратные -- с очень схожими
>>> симптомами и после починки заведомо аппаратных...)
>>>
>>> --
>>>  ---- WBR, Michael Shigorin<mike на altlinux.ru>
>>>  ------ Linux.Kiev http://www.linux.kiev.ua/
>>> _______________________________________________
>>> Sysadmins mailing list
>>> Sysadmins на lists.altlinux.org
>>> https://lists.altlinux.org/mailman/listinfo/sysadmins
>>>
>>
>>
>>
>
>
> _______________________________________________
> Sysadmins mailing list
> Sysadmins на lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/sysadmins
>



-- 
С уважением,
Хачатурян Юрий (yukh на yukh.ru)


Подробная информация о списке рассылки Sysadmins