[Sysadmins] [полтергейст] изучаю soft RAID/LVM, или миграция 5 -> 10

Sergey a_s_y на sama.ru
Пт Апр 15 06:58:47 UTC 2011


Приветствую.

Ввиду тормознутости software raid5, в коей я таки уверился лично ( ;-) ),
решил мигрировать на raid10 попробовать.

На freenode/#altlinux дали интересный совет с миграцией через дополнительный
pv. Данных не много, все lv вполне умещались на четвёртый hdd. Создал pv на
этом hdd, сделал pvmove... Вот тут возникла первая проблема. pvmove решил
попробовать сделать, не снимая нагрузки (всё тот же collectd), по большей
части в качестве эксперимента. Эксперимент показал, что так делать не надо,
так как LA взлетел до значения, которое я увидеть уже не смог: пришлось 
решать вопрос reset-ом. И вот тут сервер не загрузился. Нормальная загрузка
происходила так:

[    2.328880]  sdb: sdb1 sdb2 sdb3
[    2.329361] sd 1:0:0:0: [sdb] Attached SCSI disk
[    2.335849]  sdc: sdc1 sdc2 sdc3
[    2.336325] sd 2:0:0:0: [sdc] Attached SCSI disk
[    2.552317] md: Autodetecting RAID arrays.
[    2.552925] md: Scanned 3 and added 3 devices.
[    2.553039] md: autorun ...
[    2.553148] md: considering sdc3 ...

То есть, после цепляния sata-дисков запускался md. После reset во время работы
pvmove стало так:

[   18.543156]  sda: sda1 sda2 sda3
[   18.582260] sd 0:0:0:0: [sda] Attached SCSI disk
initrd: udev: Running lvm handler ...
  Couldn't find device with uuid 0B3Z3r-QeBp-Dve4-FFHE-9cGI-49P8-lXbLPF.
  Couldn't find device with uuid 0B3Z3r-QeBp-Dve4-FFHE-9cGI-49P8-lXbLPF.
  Refusing activation of partial LV root. Use --partial to override.
  Refusing activation of partial LV home. Use --partial to override.

md грузиться не пытался вообще. Сейчас обратил внимание на разные 
временные метки, видимо, это последствия включения вывода через serial
console.

При этом, из rescue (с Server-light 1.1.4) всё собиралось и монтировалось
без ошибок посредством mdadm --assemble /dev/md0 /dev/sd[abc]3
LVM, после этого, тоже поднимался нормально через vgchange -ay
Проблему так и не нашёл, ушел домой, подняв сеть. За вечер закончил
миграцию RAID5 -> RAID10, вот тут, может быть, не стоило торопиться
и делать при личном присутствии, проверяя возможность загрузки, ну уж
как вышло. С RAID10 загрузка в момент подключения дисков выглядит
иначе - md пытается собрать raid (initrd пересобран, raid10 там есть):

[   18.377916] sd 3:0:0:0: [sdd] Attached SCSI disk
[   18.670629]  sda: sda1 sda2 sda3
[   18.709564] sd 0:0:0:0: [sda] Attached SCSI disk
initrd: udev: Running md_run handler ...
[   18.950296] md: Autodetecting RAID arrays.
[   19.015096] md: invalid raid superblock magic on sdd3
[   19.092121] md: sdd3 does not have a valid v0.90 superblock, not importing!
[   19.186208] md: invalid raid superblock magic on sdc3
[   19.246684] md: sdc3 does not have a valid v0.90 superblock, not importing!
[   19.330331] md: invalid raid superblock magic on sdb3
[   19.390858] md: sdb3 does not have a valid v0.90 superblock, not importing!
[   19.474393] md: invalid raid superblock magic on sda3
[   19.534820] md: sda3 does not have a valid v0.90 superblock, not importing!
[   19.618078] md: Scanned 4 and added 0 devices.
[   19.671401] md: autorun ...DONE.

Из rescue, по-прежнему, всё собирается без ошибок. Вопрос: что ему
не нравится в суперблоке ? Если тот reset вчерашний что-то повредил,
ну так raid-то пересоздан, данные должны были обновиться... И почему
mdadm --assemble /dev/md0 /dev/sd[abcd]3 собирает массив без ругани ?

Сообщение про mdadm-3.2.1 видел, вот тоже думаю, уже поставить, или
пробовать пока решить проблему со старым mdadm...

-- 
С уважением, Сергей
a_s_y на sama.ru


Подробная информация о списке рассылки Sysadmins