[make-initrd] polld и проверка наличия /root/sbin/init
Leonid Krivoshein
klark.devel at gmail.com
Thu Apr 6 09:00:27 MSK 2023
Добрый день!
On 4/6/23 04:28, Антон Мидюков wrote:
> Здравствуйте
>
> Предыстория: https://bugzilla.altlinux.org/44111
>
> Заглавный вопрос: "в каком случае может быть так, что init в смонтированном корне в первые секунды нет, а потом оно чудесным образом появляется?"
На p10 с пропагатором и более старым ядром не проявляется, так что все
под подозрением, кроме этих двоих.))
> Мне кажется, ответ найден: "При распараллеливании процесса монтирования корня (из сквоша, как минимум) на медленном сетевом соединении или достаточно медленном локальном накопителе".
> Сейчас проблема стала хорошо воспроизводиться на ядре 6.2 при подключении по nfs или загрузке через ventoy и монтировании сквоша (без предварительной загрузки сквоша в память) на многоядерных процессорах.
> Если ядро одно, то проблемы нет (проверено в виртуалке).
> В ядре включили алгоритм монтирования оверлея CONFIG_SQUASHFS_DECOMP_MULTI_PERCPU, и это проблему усугубило.
> Но проблему крайне редко можно было поймать и раньше.
А на p10 с пропагатором удавалось воспроизвести? Мне ни разу не удалось,
хотя концовка с монтированием оверлея на скриптах у них схожа.
> Отсюда выводы:
> 1. Факт монтирования корня недостаточное условие, существует переходный процесс монтирования
Насколько я понимаю, у каждой группы процессов может быть собственное
пространство имён монтирования, но описываемое поведение говорит о том,
что polld и chaind находятся в разных пространствах имён и ещё что-то
заставляет перемещать структуры в ядре от одной из групп к другой. В
общем странно и невероятно, потому что по идее, если пространства
разные, они изолированы, а если одинаковые, все процессы должны увидеть
изменения мгновенно. Тем не менее, мы наблюдаем именно такое поведение,
описанное Антоном. Весьма похоже на ядерный рейс, поскольку на начальном
этапе загрузка работой сильная и "мгновенности" не случается.
> 2. Обнаружение /sbin/init также не является достаточным условием, что можно продолжать загрузку, переходный процесс может оказаться длинным
Получается, грубо говоря, что мы не знаем, в скольких тредах выполнения
(снаружи bootchain) должна пройти синхронизация и чего именно ожидать. В
bootchain команда mount завершилась успешно, ядро смонтировало
устройства. Но polld почему-то об этом ничего не знает. По идее polld
должен начинать проверку только после выхода из bootchain на вызове
telinit 2, если эта проверка на нём.
> Гипотеза о переходном процессе основана на сопоставлении двух логов chaind.log и polld.log
> Ошибка об отсутствии /sbin/init была выдана на 1 секунду раньше, чем было завершено монтирование оверлея (оно занимало две секунды).
Похоже на какой-то глюк с ходом часов (хотя monotonic timestamp
используется) или особенность работы telinit 2. У меня нет идей.
> И другая проблема, вытекающая из этих:
> bootchain после монтирования /sbin/init совершает ещё действия, поэтому нужно дождаться его выполнения.
В нём это делать бесполезно, там всё хорошо будет.
> В случае bootchain было бы надёжным запускать polld только тогда, когда он завершил свою работу.
> Такое в принципе возможно?
Тут большой вопрос, кто кого запускает. Не знаю назначение polld, но мне
кажется именно его сообщения мы видим на /dev/console о запуске и
завершении служб. Я считаю, что несмотря на пошаговую загрузку в
bootchain, мы не можем останавливать event-driven механизм.
--
WBR, Leonid Krivoshein.
More information about the Make-initrd
mailing list