[Sysadmins] IBM eServer x3400 + Xen 4.1.0 + kernel-image-xen-dom0-alt38
Alex Moskalenko
mav на elserv.msk.su
Пн Июл 11 06:12:12 UTC 2011
Здравствуйте!
Снова подниму тему работы нашего xen-dom0 на eServer x3400. На данный момент
на сервере установлены xen 4.1.1 и ядро 2.6.32-xen-dom0-alt41. В качетсве
гостевых систем - 4 hvm-домена с Windows и 2 pv с Linux (2.6.39-std-def-alt2.
За время тестирования накопилась следующая статистика:
1) Несмотря на "глючный ACPI" все устройства работают;
2) Периодически появляются сообщения от ядра:
=== cut ===
[44022.366517] BUG: soft lockup - CPU#0 stuck for 74s! [swapper:0]
[44022.366532] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat
nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT
iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si
bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod
joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi
ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb
i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev
8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure
sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf
ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid
scsi_mod [last unloaded: i5000_edac]
[44022.367667] CPU 0:
[44022.367704] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat
nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT
iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si
bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod
joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi
ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb
i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev
8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure
sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf
ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid
scsi_mod [last unloaded: i5000_edac]
[44022.369119] Pid: 0, comm: swapper Tainted: P
2.6.32-xen-dom0-alt41 #1 IBM eServer x3400-[7976L2G]-
[44022.369139] RIP: e030:[<ffffffff810093aa>] [<ffffffff810093aa>]
hypercall_page+0x3aa/0x1010
[44022.369186] RSP: e02b:ffffffff8154fef0 EFLAGS: 00000246
[44022.369205] RAX: 0000000000000000 RBX: ffffffff8154ffd8 RCX:
ffffffff810093aa
[44022.369224] RDX: 0000000000000000 RSI: 0000000000000000 RDI:
0000000000000001
[44022.369246] RBP: ffffffff8154ff08 R08: 0000000000000000 R09:
0000000000000000
[44022.369265] R10: 0000000000000000 R11: 0000000000000246 R12:
ffffffff815a1b60
[44022.369285] R13: 0000000000000000 R14: 0000000000000000 R15:
0000000000000000
[44022.369308] FS: 00007f9eaa00c700(0000) GS:ffff880028038000(0000)
knlGS:0000000000000000
[44022.369327] CS: e033 DS: 0000 ES: 0000 CR0: 000000008005003b
[44022.369346] CR2: 00007f1ddcd5c000 CR3: 000000003c797000 CR4:
0000000000002660
[44022.369362] DR0: 0000000000000000 DR1: 0000000000000000 DR2:
0000000000000000
[44022.369382] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7:
0000000000000400
[44022.369401] Call Trace:
[44022.369436] [<ffffffff81010cc0>] ? xen_safe_halt+0x10/0x30
[44022.369472] [<ffffffff8101db20>] default_idle+0x40/0xb0
[44022.369507] [<ffffffff81014349>] cpu_idle+0x79/0xc0
[44022.369542] [<ffffffff81382d2d>] rest_init+0x6d/0x80
[44022.369576] [<ffffffff815bce55>] start_kernel+0x3f6/0x492
[44022.369613] [<ffffffff815bc2b9>] x86_64_start_reservations+0x99/0xb9
[44022.369651] [<ffffffff815c07f9>] xen_start_kernel+0x5d2/0x6b9
=== cut===
Периодичность сообщений случайная. От 2 раз в сутки до раза в неделю.
Количество "подвисших" процессоров также может быть как один, так и восемь
(количество ядер в системе). Больше всего беспокоит то, что после этих
сообщений и dom0, и domU, на которые попали подвисшие CPU, дейсвительно
полностью подвисают на время, указанное в строке "BUG: soft lockup - CPU##
stuck for ##s!". Это видно по сообщениям ядра в linux ([43965.911454]
Clocksource tsc unstable (delta = -42949673037 ns)) и следующих за ним
сообщениях от ntpd о коррекции времени; и по сообщениям от службы w32time в
Windows;
3) Очень редко в dom0 появляется сообщение ядра
===cut===
EDAC MC0: UE row 1, channel-a= 0 channel-b= 1 labels "-": (Branch=0
DRAM-Bank=4 RDWR=Write RAS=5926 CAS=0 FATAL Err=0x4 (>Tmid Thermal event with
intelligent throttling disabled))
===cut===
На работе не отражается никак. Тесты памяти ошибок не выявляют, сбоев нет,
перегрева не наблюдается.
Из вышеперечисленного более всего беспокоит проблема (2). В BIOS все, что мог,
перепробовал - отключил Enhanced C-States, поддержку S3 - ситуация не
меняется.
В связи с этим вопрос к Виталию Кузнецову: не могли бы Вы поделиться патчем на
ACPI к нашему 2.6.32-xen-dom0? Я хотел попробовать наложить его на ядро
xen-stable-2.6.39 из
git://git.kernel.org/pub/scm/linux/kernel/git/konrad/xen.git и попробовать в
работе его. Сейчас оно к сожалению падает при загрузке, как
2.6.32-xen-dom0-alt < alt36.2.
--
WBR, Alex Moskalenko
Подробная информация о списке рассылки Sysadmins