[Sysadmins] IBM eServer x3400 + Xen 4.1.0 + kernel-image-xen-dom0-alt38

Пн Июл 11 06:12:12 UTC 2011

Здравствуйте!

Снова подниму тему работы нашего xen-dom0 на eServer x3400. На данный момент 
на сервере установлены xen 4.1.1 и ядро 2.6.32-xen-dom0-alt41. В качетсве 
гостевых систем - 4 hvm-домена с Windows и 2 pv с Linux (2.6.39-std-def-alt2. 
За время тестирования накопилась следующая статистика:

1) Несмотря на "глючный ACPI" все устройства работают;

2) Периодически появляются сообщения от ядра:
=== cut === 
[44022.366517] BUG: soft lockup - CPU#0 stuck for 74s! [swapper:0]
[44022.366532] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat 
nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT 
iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si 
bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod 
joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi 
ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb 
i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev 
8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure 
sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf 
ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid 
scsi_mod [last unloaded: i5000_edac]
[44022.367667] CPU 0:
[44022.367704] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat 
nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT 
iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si 
bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod 
joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi 
ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb 
i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev 
8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure 
sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf 
ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid 
scsi_mod [last unloaded: i5000_edac]
[44022.369119] Pid: 0, comm: swapper Tainted: P           
2.6.32-xen-dom0-alt41 #1 IBM eServer x3400-[7976L2G]-
[44022.369139] RIP: e030:[<ffffffff810093aa>]  [<ffffffff810093aa>] 
hypercall_page+0x3aa/0x1010
[44022.369186] RSP: e02b:ffffffff8154fef0  EFLAGS: 00000246
[44022.369205] RAX: 0000000000000000 RBX: ffffffff8154ffd8 RCX: 
ffffffff810093aa
[44022.369224] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 
0000000000000001
[44022.369246] RBP: ffffffff8154ff08 R08: 0000000000000000 R09: 
0000000000000000
[44022.369265] R10: 0000000000000000 R11: 0000000000000246 R12: 
ffffffff815a1b60
[44022.369285] R13: 0000000000000000 R14: 0000000000000000 R15: 
0000000000000000
[44022.369308] FS:  00007f9eaa00c700(0000) GS:ffff880028038000(0000) 
knlGS:0000000000000000
[44022.369327] CS:  e033 DS: 0000 ES: 0000 CR0: 000000008005003b
[44022.369346] CR2: 00007f1ddcd5c000 CR3: 000000003c797000 CR4: 
0000000000002660
[44022.369362] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 
0000000000000000
[44022.369382] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 
0000000000000400
[44022.369401] Call Trace:
[44022.369436]  [<ffffffff81010cc0>] ? xen_safe_halt+0x10/0x30
[44022.369472]  [<ffffffff8101db20>] default_idle+0x40/0xb0
[44022.369507]  [<ffffffff81014349>] cpu_idle+0x79/0xc0
[44022.369542]  [<ffffffff81382d2d>] rest_init+0x6d/0x80
[44022.369576]  [<ffffffff815bce55>] start_kernel+0x3f6/0x492
[44022.369613]  [<ffffffff815bc2b9>] x86_64_start_reservations+0x99/0xb9
[44022.369651]  [<ffffffff815c07f9>] xen_start_kernel+0x5d2/0x6b9
=== cut===
Периодичность сообщений случайная. От 2 раз в сутки до раза в неделю. 
Количество "подвисших" процессоров также может быть как один, так и восемь 
(количество ядер в системе). Больше всего беспокоит то, что после этих 
сообщений и dom0, и domU, на которые попали подвисшие CPU, дейсвительно 
полностью подвисают на время, указанное в строке "BUG: soft lockup - CPU## 
stuck for ##s!". Это видно по сообщениям ядра в linux ([43965.911454] 
Clocksource tsc unstable (delta = -42949673037 ns)) и следующих за ним 
сообщениях от ntpd о коррекции времени; и по сообщениям от службы w32time в 
Windows;

3) Очень редко в dom0 появляется сообщение ядра
===cut===
EDAC MC0: UE row 1, channel-a= 0 channel-b= 1 labels "-": (Branch=0 
DRAM-Bank=4 RDWR=Write RAS=5926 CAS=0 FATAL Err=0x4 (>Tmid Thermal event with 
intelligent throttling disabled))
===cut===
На работе не отражается никак. Тесты памяти ошибок не выявляют, сбоев нет, 
перегрева не наблюдается.

Из вышеперечисленного более всего беспокоит проблема (2). В BIOS все, что мог, 
перепробовал - отключил Enhanced C-States, поддержку S3 - ситуация не 
меняется.

В связи с этим вопрос к Виталию Кузнецову: не могли бы Вы поделиться патчем на 
ACPI к нашему 2.6.32-xen-dom0? Я хотел попробовать наложить его на ядро 
xen-stable-2.6.39 из 
git://git.kernel.org/pub/scm/linux/kernel/git/konrad/xen.git и попробовать в 
работе его. Сейчас оно к сожалению падает при загрузке, как 
2.6.32-xen-dom0-alt < alt36.2.

-- 
WBR, Alex Moskalenko