[devel] Оптимизируем hasher для работы с фиксированным репозиторием. II.

Igor Vlasenko vlasenko на imath.kiev.ua
Вт Сен 8 03:12:33 MSK 2020


Оптимизируем hasher для работы с фиксированным репозиторием. II.
________________________________________________________________

При запуске hasher, если hasher/cache/ уже есть,
то hasher проверяет, не изменился ли репозиторий, и если изменился,
то обновляет hasher/cache/, иначе использует hasher/cache/.

По условиям задачи у нас фиксированный репозиторий. Это означает,
что репозиторий не меняется без нашего ведома -- к примеру,
локальное зеркало ежедневного релиза Сизифа.

Вторая оптимизация позволяет ускорять любые работы с hasher.

Ее суть проста: поскольку мы явно знаем, что репозиторий не менялся,
то сообщить об этом hasher'у опцией вроде --same-repository,
чтобы он поверил человеку на слово, пропустил тяжелые проверки,
и сразу использовал свой hasher/cache/.

Немного статистики.

Проведем с hasher'ом 1.4.4-alt1 простые бенчмарки на машине altair
(2xXeon E5-2640v3). Репозиторий -- чистый Сизиф, рабочий каталог в tmpfs.
(первые измерения отбрасываем, чтобы исключить I/O с жестким диском).
Замеряем время hsh --initroot-only.

 mkdir $TMP/hasher
 time hsh $TMP/hasher --initroot-only --apt-config=/etc/autorepo/apt/apt.conf.Sisyphus.x86_64
Запуск hasher без кеша. hasher создает свой workdir, делает initroot.
18,98s user 5,54s system 104% cpu 23,503 total

 time hsh $TMP/hasher --initroot-only --apt-config=/etc/autorepo/apt/apt.conf.Sisyphus.x86_64
Запуск hasher с cache/. hasher проверяет свой workdir, делает initroot.
 6,36s user 2,73s system 103% cpu 8,805 total
hasher-1.4.4, кстати, здесь быстрее (9сек), чем hasher-1.4.3 (10.5сек).
Когда я начинал замеры, то пользовался установленным 1.4.3,
но на всякий случай проверил, последняя ли это версия, обновился,
и далее пользовался уже 1.4.4, в которой Дмитрий сумел уменьшить это
время на 1.5 секунды.
Не думайте об этих секундах свысока. Экономия в 1.5 секунды по
сравнению с hasher-1.4.3 каждый раз при сборке или проверке установкой
при пересборке питона для 1000+ исходных и 3500+ бинарных пакетов
даст почти два часа ускорения сборки этой транзакции на x86_64.
Мне же удалось сэкономить 8.3 секунды на initroot, выполняя его за 2.2с
(0,033 total+2,131 total).
Это близко к нижнему пределу. Если репозиторий, с которым проводилась
сборка, не менялся, то по умолчанию (--without-stuff), hasher должен
обновить chroot, а выполнить cpio --extract на hasher/.../chroot.cpio
занимает
 lz4 -d chroot.cpio | time cpio --extract [...]
0,16s user 0,95s system 74% cpu 1,486 total

Эта оптимизация естественно просится в сборочницу.
Ведь в процессе сборки task'а репозиторий, с которым проводится
сборка, не меняется. Даже если за это время Сизиф обновится,
сборка все равно будет идти на старом репозитории.

Секунды к секундам экономии дадут больше 8 часов ускорения
пересборки питона или больше 3 часов ускорения пересборки perl.
На одиночном таске это ускорение не так заметно. Пакеты наподобие
hplip соберутся быстрее на минуту-полторы, но выстроившаяся
очередь в сборочницу соберется существенно быстрее, ведь
в очереди экономия суммируется.

К сожалению, эта оптимизации нет в нашем hasher'е. Она существует в
виде моего приватного форка. В сборочнице для autoimports
для ускорения работы с hasher initroot выполнялся только один раз,
при старте. Полученный hasher_workdir в параллельных потоках
клонировался (см. предыдущее письмо: subj часть. I.)
и далее сборчница работала напрямую с hsh-rebuild и hsh-install.
Свои изменения я оформил в 2 низкоуровневых патча, отключающих
2 тяжелые проверки с кешем hasher.
Для пробы попытался провести более простой патч в апстрим hasher,
https://bugzilla.altlinux.org/show_bug.cgi?id=36531
Но не смог.
Тогда я занимался переписыванием своей сборочницы для autoimports
в полноценную дистрибутивную (локальную) сборочницу для всех желающих.
Забросил это переписывание, когда понял, что, помимо сборочницы,
придется, по сути, поддерживать собственный форк hasher,
что явно было чересчур.

Впрочем, тогда я сам понимал и позиционировал в #36531 эти патчи как
ускорение работы с клонированным hasher_workdir. Сейчас, разбираясь,
я замерил задержки с оригинальным и клонированным hasher_workdir --
они оказались одинаковыми, клонирование здесь не при чем,
Переосмысливая, это просто общее ускорение работы hasher с
фиксированным репозиторием. При этом вместо двух низкоуровневых
опций возможно была бы уместнее одна высокоуровневая
вроде --same-repository.

Кроме того, эти проверки в hasher, возможно, содержат какие-то
логические ошибки. Вспомнилось, что полтора года назад при отладке
внутри упомянутых проверок сравнивались списки пакетов, которые
почему-то были различными при первом запуске без cache/ и втором
запуске с cache/, при том, что репозиторий не менялся.
Это приводило к выполнению ненужных тяжелых операций,
которые я отключил вместе с проверками. Тогда я эти странности
списал на неправильное клонирование, но бенчмарки показали,
что это не так.

В общем, мне бы очень хотелось избавиться от своего форка hasher
и получить ту же функциональность от пакета hasher в Sisyphus.

-- 

I V


Подробная информация о списке рассылки Devel