[devel] Оптимизируем hasher для работы с фиксированным репозиторием. II.

Andrey Savchenko bircoph на altlinux.org
Вт Сен 8 13:03:10 MSK 2020


Добрый день!

On Tue, 8 Sep 2020 03:12:33 +0300 Igor Vlasenko wrote:
> Оптимизируем hasher для работы с фиксированным репозиторием. II.
> ________________________________________________________________
> 
> При запуске hasher, если hasher/cache/ уже есть,
> то hasher проверяет, не изменился ли репозиторий, и если изменился,
> то обновляет hasher/cache/, иначе использует hasher/cache/.
> 
> По условиям задачи у нас фиксированный репозиторий. Это означает,
> что репозиторий не меняется без нашего ведома -- к примеру,
> локальное зеркало ежедневного релиза Сизифа.
> 
> Вторая оптимизация позволяет ускорять любые работы с hasher.
> 
> Ее суть проста: поскольку мы явно знаем, что репозиторий не менялся,
> то сообщить об этом hasher'у опцией вроде --same-repository,
> чтобы он поверил человеку на слово, пропустил тяжелые проверки,
> и сразу использовал свой hasher/cache/.
> 
> Немного статистики.
> 
> Проведем с hasher'ом 1.4.4-alt1 простые бенчмарки на машине altair
> (2xXeon E5-2640v3). Репозиторий -- чистый Сизиф, рабочий каталог в tmpfs.
> (первые измерения отбрасываем, чтобы исключить I/O с жестким диском).
> Замеряем время hsh --initroot-only.
> 
>  mkdir $TMP/hasher
>  time hsh $TMP/hasher --initroot-only --apt-config=/etc/autorepo/apt/apt.conf.Sisyphus.x86_64
> Запуск hasher без кеша. hasher создает свой workdir, делает initroot.
> 18,98s user 5,54s system 104% cpu 23,503 total
> 
>  time hsh $TMP/hasher --initroot-only --apt-config=/etc/autorepo/apt/apt.conf.Sisyphus.x86_64
> Запуск hasher с cache/. hasher проверяет свой workdir, делает initroot.
>  6,36s user 2,73s system 103% cpu 8,805 total
> hasher-1.4.4, кстати, здесь быстрее (9сек), чем hasher-1.4.3 (10.5сек).
> Когда я начинал замеры, то пользовался установленным 1.4.3,
> но на всякий случай проверил, последняя ли это версия, обновился,
> и далее пользовался уже 1.4.4, в которой Дмитрий сумел уменьшить это
> время на 1.5 секунды.
> Не думайте об этих секундах свысока. Экономия в 1.5 секунды по
> сравнению с hasher-1.4.3 каждый раз при сборке или проверке установкой
> при пересборке питона для 1000+ исходных и 3500+ бинарных пакетов
> даст почти два часа ускорения сборки этой транзакции на x86_64.
> Мне же удалось сэкономить 8.3 секунды на initroot, выполняя его за 2.2с
> (0,033 total+2,131 total).
> Это близко к нижнему пределу. Если репозиторий, с которым проводилась
> сборка, не менялся, то по умолчанию (--without-stuff), hasher должен
> обновить chroot, а выполнить cpio --extract на hasher/.../chroot.cpio
> занимает
>  lz4 -d chroot.cpio | time cpio --extract [...]
> 0,16s user 0,95s system 74% cpu 1,486 total
> 
> Эта оптимизация естественно просится в сборочницу.
> Ведь в процессе сборки task'а репозиторий, с которым проводится
> сборка, не меняется. Даже если за это время Сизиф обновится,
> сборка все равно будет идти на старом репозитории.

Оптимизация хорошая и я думаю, что эта опция нам нужна в hasher,
т.к. будет полезна ряду пользователей.

Однако, хочу отметить, что репозиторий внутри таска тоже может
меняться: например, в таске есть пакеты A и B, A собирается перед B
и A находится в сборочных зависимостях B. Тогда после сборки A
репозиторий внутри таска изменится и B будет собираться уже в другом
окружении. Поэтому просто так на сборочнице включать эту опцию
нельзя.

Для корректного применения этой опции необходимо иметь возможность
построить граф сборочных зависимостей для каждого подзадания после
первого и определить, нет ли в нём пакетов, полученных
в предшествующих подзаданиях. Проблема в том, что, как уже
обсуждалось в данной рассылке, в общем случае это неразрешимая
задача, т.к. зависимости у нас есть не только явно на пакеты, но и
на другие объекты, например, библиотеки или модули pkg-config: это
плата, которую нам приходится платить за механизм автоматического
определения зависимостей.

> Секунды к секундам экономии дадут больше 8 часов ускорения
> пересборки питона или больше 3 часов ускорения пересборки perl.
> На одиночном таске это ускорение не так заметно. Пакеты наподобие
> hplip соберутся быстрее на минуту-полторы, но выстроившаяся
> очередь в сборочницу соберется существенно быстрее, ведь
> в очереди экономия суммируется.
> 
> К сожалению, эта оптимизации нет в нашем hasher'е. Она существует в
> виде моего приватного форка. В сборочнице для autoimports
> для ускорения работы с hasher initroot выполнялся только один раз,
> при старте. Полученный hasher_workdir в параллельных потоках
> клонировался (см. предыдущее письмо: subj часть. I.)
> и далее сборчница работала напрямую с hsh-rebuild и hsh-install.
> Свои изменения я оформил в 2 низкоуровневых патча, отключающих
> 2 тяжелые проверки с кешем hasher.
> Для пробы попытался провести более простой патч в апстрим hasher,
> https://bugzilla.altlinux.org/show_bug.cgi?id=36531
> Но не смог.
> Тогда я занимался переписыванием своей сборочницы для autoimports
> в полноценную дистрибутивную (локальную) сборочницу для всех желающих.
> Забросил это переписывание, когда понял, что, помимо сборочницы,
> придется, по сути, поддерживать собственный форк hasher,
> что явно было чересчур.
> 
> Впрочем, тогда я сам понимал и позиционировал в #36531 эти патчи как
> ускорение работы с клонированным hasher_workdir. Сейчас, разбираясь,
> я замерил задержки с оригинальным и клонированным hasher_workdir --
> они оказались одинаковыми, клонирование здесь не при чем,
> Переосмысливая, это просто общее ускорение работы hasher с
> фиксированным репозиторием. При этом вместо двух низкоуровневых
> опций возможно была бы уместнее одна высокоуровневая
> вроде --same-repository.
> 
> Кроме того, эти проверки в hasher, возможно, содержат какие-то
> логические ошибки. Вспомнилось, что полтора года назад при отладке
> внутри упомянутых проверок сравнивались списки пакетов, которые
> почему-то были различными при первом запуске без cache/ и втором
> запуске с cache/, при том, что репозиторий не менялся.
> Это приводило к выполнению ненужных тяжелых операций,
> которые я отключил вместе с проверками. Тогда я эти странности
> списал на неправильное клонирование, но бенчмарки показали,
> что это не так.
> 
> В общем, мне бы очень хотелось избавиться от своего форка hasher
> и получить ту же функциональность от пакета hasher в Sisyphus.
> 


Best regards,
Andrew Savchenko
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя     : отсутствует
Тип     : application/pgp-signature
Размер  : 833 байтов
Описание: отсутствует
Url     : <http://lists.altlinux.org/pipermail/devel/attachments/20200908/d1af050d/attachment-0001.bin>


Подробная информация о списке рассылки Devel