[sisyphus] BUG: soft lockup - CPU#1 stuck for 23s!
Stas
stas.grumbler на gmail.com
Вт Май 31 02:03:30 MSK 2016
Некоторое время сталкиваюсь с проблемой: smbd подвешивает одно из ядер
(разные ядра в разных случаях), растут LA, kill -kill подвисшие самбы не
киляет и программная перезагрузка не отраюатывает.
Помогает только нажатие Reset или отключение питания.
Ядро при этом сообщает:
[ 1536.827715] BUG: soft lockup - CPU#1 stuck for 23s! [smbd:6663]
[ 1536.828132] Modules linked in: ip6table_filter ip6_tables ebtable_nat
ebtables ipt_MASQUERADE iptable_nat nf_nat_ipv4 nf_nat nf_conntrack
_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack ipt_REJECT xt_CHECKSUM
iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables bridge stp
llc af_packet autofs4 sunrpc ipv6
xfs libcrc32c dm_multipath scsi_dh coretemp hwmon intel_rapl
x86_pkg_temp_thermal intel_powerclamp kvm_intel kvm crct10dif_pclmul
crc32_pclmul crc32c_intel aesni_intel i915 d
rm_kms_helper iTCO_wdt iTCO_vendor_support drm aes_x86_64 alx(O) lrw
gf128mul xhci_hcd glue_helper i2c_i801 intel_gtt mdio ablk_helper
i2c_algo_bit tpm_infineon thermal lpc_i
ch cryptd i2c_core fan battery video psmouse evdev microcode serio_raw
pcspkr processor button tun ext4 crc16 mbcache jbd2 raid1 hid_generic
sd_mod crc_t10dif crct10dif_commo
n ata_generic pata_acpi usbhid hid ata_piix libata ehci_pci ehci_hcd
scsi_mod usbcore usb_common dm_mod
[ 1536.828166] CPU: 1 PID: 6663 Comm: smbd Tainted: G O
3.14.70-std-def-alt0.M70P.1 #1
[ 1536.828167] Hardware name: Gigabyte Technology Co., Ltd. To be filled
by O.E.M./B75-D3V, BIOS F9 10/23/2013
[ 1536.828168] task: ffff8800d72ea090 ti: ffff880206dda000 task.ti:
ffff880206dda000
[ 1536.828169] RIP: 0010:[<ffffffff81559c27>] [<ffffffff81559c27>]
_raw_spin_lock+0x27/0x50
[ 1536.828174] RSP: 0018:ffff880206ddbe20 EFLAGS: 00000206
[ 1536.828175] RAX: 0000000000007b72 RBX: ffffffff811cf36c RCX:
0000000000000098
[ 1536.828176] RDX: 000000000000007e RSI: 000000000000007e RDI:
ffff880206d8fe88
[ 1536.828176] RBP: ffff880206ddbe48 R08: 00000000574c0cb1 R09:
ffff880206ddbbe4
[ 1536.828177] R10: ffff880206ddbee2 R11: 0000000000000004 R12:
ffff88020c839a10
[ 1536.828178] R13: 0000000000000002 R14: ffff88020c8144c0 R15:
0000000400000001
[ 1536.828179] FS: 00007f42454287c0(0000) GS:ffff88021e240000(0000)
knlGS:0000000000000000
[ 1536.828180] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[ 1536.828181] CR2: 00007f42344aa53c CR3: 0000000206ebb000 CR4:
00000000001407e0
[ 1536.828182] Stack:
[ 1536.828182] ffffffff8152dea7 ffff88021210bbc0 0000000000000027
ffff880206ddbec0
[ 1536.828184] ffff88021210bbc0 ffff880206ddbea8 ffffffff8152fba3
ffff880206ddbe74
[ 1536.828186] ffffffff8185c440 0000000000000000 0000002700000000
ffffffff810a10a6
[ 1536.828188] Call Trace:
[ 1536.828192] [<ffffffff8152dea7>] ? unix_state_double_lock+0x27/0x70
[ 1536.828194] [<ffffffff8152fba3>] unix_dgram_connect+0x93/0x200
[ 1536.828197] [<ffffffff810a10a6>] ? account_system_time+0xc6/0x180
[ 1536.828199] [<ffffffff8147e22b>] SYSC_connect+0xdb/0x100
[ 1536.828202] [<ffffffff8147e6a9>] SyS_connect+0x9/0x10
[ 1536.828204] [<ffffffff81562b27>] tracesys+0xdd/0xe2
[ 1536.828205] Code: 00 00 00 00 b8 00 02 00 00 f0 66 0f c1 07 0f b6 d4
38 c2 75 01 c3 83 e2 fe 0f b6 f2 b8 00 80 00 00 eb 08 90 f3 90 83 e8 01
74 0a <0f> b6 0f 38 ca 75 f2 66 90 c3 48 83 3d e7 9d 2a 00 00 74 09 0f
Ядро обновлял, это не помогло, теперь работает Linux
3.14.70-std-def-alt0.M70P.1 x86_64.
Самба обслуживает меньше десяти клиентов, ресурсы расположены на томе с
файловой сиcтемой xfs.
Только что заменил FS на томе на ext4, чтобы проверить, не в этом ли дело.
Гугленье не слишком помогает понять, что к чему. Единственная внятная
рекомендация - добавить в командную строку ядра "nohz=off
hpet=disable", только я сомневаюсь, что дело в HPET и "засыпании" CPU.
--
Станислав Дёгтев
Служба "Ваш админ"
Мои контакты:
- jabber: grumbler на grumbler.org
- email: stas.grumbler на gmail.com и stas на vashadmin.su
- телефоны в Е-бурге +79045430461 и +79222112259
Подробная информация о списке рассылки Sisyphus