[Sysadmins] OpenVZ: 2.6.32-ovz-el-alt144, task vzctl:12751 blocked for more than 120 seconds.

Sergey a_s_y на sama.ru
Сб Окт 22 11:08:26 MSK 2016


Приветствую.

Поменял ядро по известной причине. При рестарте сервера вылезла проблема:

Oct 22 11:44:05 kernel: [  963.627231] INFO: task vzctl:12751 blocked for more than 120 seconds.
Oct 22 11:44:05 kernel: [  963.627240]       Not tainted 2.6.32-ovz-el-alt144 #1
Oct 22 11:44:05 kernel: [  963.627243] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Oct 22 11:44:05 kernel: [  963.627247] vzctl         D ffff8801c356f1d0     0 12751      1    0 0x00000000
Oct 22 11:44:05 kernel: [  963.627257]  ffff8801c304bbc8 0000000000000086 0000000000000000 0000000000800000
Oct 22 11:44:05 kernel: [  963.627264]  ffff8801c4e0f110 ffff8801c304bbe0 000000b6263b538b ffff880100000000
Oct 22 11:44:05 kernel: [  963.627270]  ffff880200000000 0000000000000000 0000000100075a64 ffffffff810b2251
Oct 22 11:44:05 kernel: [  963.627277] Call Trace:
Oct 22 11:44:05 kernel: [  963.627294]  [<ffffffff810b2251>] ? lock_hrtimer_base+0x31/0x60
Oct 22 11:44:05 kernel: [  963.627305]  [<ffffffff8148bbe5>] schedule_timeout+0x215/0x2e0
Oct 22 11:44:05 kernel: [  963.627316]  [<ffffffff81077ffc>] ? enqueue_task_fair+0x9c/0x1e0
Oct 22 11:44:05 kernel: [  963.627325]  [<ffffffff81064df6>] ? enqueue_task+0x66/0x80
Oct 22 11:44:05 kernel: [  963.627331]  [<ffffffff8148b2f4>] wait_for_completion+0xe4/0x120
Oct 22 11:44:05 kernel: [  963.627337]  [<ffffffff8106a2d0>] ? default_wake_function+0x0/0x20
Oct 22 11:44:05 kernel: [  963.627353]  [<ffffffffa0774379>] vps_rst_restore_tree+0x259/0x2c0 [vzrst]
Oct 22 11:44:05 kernel: [  963.627363]  [<ffffffffa077661c>] vps_rst_undump+0x18c/0x210 [vzrst]
Oct 22 11:44:05 kernel: [  963.627371]  [<ffffffffa07734c1>] rst_ioctl+0x681/0x790 [vzrst]
Oct 22 11:44:05 kernel: [  963.627379]  [<ffffffffa0772e40>] ? rst_ioctl+0x0/0x790 [vzrst]
Oct 22 11:44:05 kernel: [  963.627392]  [<ffffffff8122c1ee>] proc_reg_unlocked_ioctl+0xde/0x100
Oct 22 11:44:05 kernel: [  963.627402]  [<ffffffff811d3082>] vfs_ioctl+0x22/0xa0
Oct 22 11:44:05 kernel: [  963.627408]  [<ffffffff811d3566>] do_vfs_ioctl+0x3c6/0x5b0
Oct 22 11:44:05 kernel: [  963.627414]  [<ffffffff811d379f>] sys_ioctl+0x4f/0x80
Oct 22 11:44:05 kernel: [  963.627421]  [<ffffffff8100b192>] system_call_fastpath+0x16/0x1b

Висит достаточно долго. Конца не выдержал, сбил процессы, относящиеся к старту
контейнера:

# ps ax|grep vz
   3699 ?        Ss     0:00 /usr/sbin/vzeventd
   3708 ?        S      0:00 /bin/sh /etc/rc.d/rc3.d/S96vz start
   3926 ?        S      0:00 [vzmond]
  12728 ?        S      0:00 initlog -q -c vzctl start 3139 --skip-fsck
  12729 ?        S      0:00 vzctl start 3139 --skip-fsck
  12751 ?        D      0:00 vzctl start 3139 --skip-fsck
  12768 ?        Ss     0:00 vzctl start 3139 --skip-fsck
  14531 pts/1    S+     0:00 grep vz

# kill 12729 12751 12768 

Заблокированный тут 12751. Вот плохо, что не посмотрел strace-ом, на чём он встал.
Из полутора десятков контейнеров таким образом затык обеспечили три. Потом они 
нормально запустились посредством vzctl [VEID] start. То ли связано с обновлением,
то ли нет, не знаю пока. Никто ещё не наступал ? Раньше такого, вроде бы, не было.

Хост-система на p7, но vzctl точечно обновлён до vzctl-4.9.4-alt1

-- 
С уважением, Сергей
a_s_y на sama.ru


Подробная информация о списке рассылки Sysadmins