[devel] статистика

Alexey Tourbin =?iso-8859-1?q?at_=CE=C1_altlinux=2Eru?=
Чт Авг 23 23:05:29 MSD 2007


On Thu, Aug 23, 2007 at 04:32:18PM +0400, Alexey Tourbin wrote:
> Очень дорого это сколько, в новых деньгах? :)
> 
> Я и это обсуждал с ldv на конференции.  Порешили на том,
> что нужно поточнее прикинуть статистику.  Какая пропускная
> способность сизифа и средняя загрузка сборочных серверов
> нам нужна, и сколько, исходя из этого, нужно сборочных серверов?
> 
> Думаю, что в ближайшее время ответ на эти вопросы будет получен.
> Тогда можно ставить вопрос ребром.  А заранее вопить "очень дорого",
> впрочем как и "даёшь серверы" с пустыми руками и без понятия, это
> по-моему не стоит так делать.

Я грепнул логи /raid/beehive/old-logs/i586/2007/0812/success/,
выложил сюда: ftp://ftp.altlinux.org/pub/people/at/buildtime

У меня получилась следующая первичная статистика:
среднее время сборки 74 секунды, медиана распределения 27 секунд,
сигма которая СКО она же стандартная девиация 189 секунд,
максимальное время сборки 3273 секунды (у пакета kdebase).

Гистограмма по смыслу похожа на распределение Максвелла. :)
ftp://ftp.altlinux.org/pub/people/at/buildtime.png

Теперь, если кто понимает в мат. статистике, я вопрошаю:
что можно извлечь из этих данных?

Начнем с простого вопроса: что дает среднее время сборки пакета?
Ведь может попасться "неудачный" пакет, и рассчитывать, что он соберётся
за минуту, нельзя (kdebase собирается целый час).  Из статистики
известно "правило трёх сигм" (правда, оно касается распределений,
близких к нормальному).  Это правило сводится к тому, что с надёжностью
больше 99% случайная величина (время сборки) принимает значение
(среднее)плюс-минус(3*сигма), и с надежностью около 95%
(среднее)плюс-минус(2*сигма).

Значит, чтобы нас не "прокатили" на "оптимистичном" среднем значении,
нужно закладывать время сборки пакета 74+2*сигма=74+2*189=452 секунды.

С другой стороны, "время сборки" одного пакета по отношению к нашей
задаче вообще имеет мало смысла.  Мы ведь будем пересобирать серию из
N пакетов подряд.  Из статистики также известно (если чорт меня не
попутал), что с увеличением размеров выборки сигма падает
пропорционально 1/sqrt(N) -- то есть, на пальцах, "размах" отклонения
суммарного времени падает за счет нивелирования выбросов.
Это даёт следующую формулу:

(ВРЕМЯ СБОРКИ СЛУЧАЙНО ВЫБРАННЫХ N src.rpm ПАКЕТОВ) <=
	N * (среднее + 2*сигма/sqrt(N))
где
	среднее = 74 секунды
	сигма = 189 секунда
неравенство выполняется с вероятностью около 90%.

Прошу подписчиков листа обдумать это соображение. :)
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя     : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип     : application/pgp-signature
Размер  : 189 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url     : <http://lists.altlinux.org/pipermail/devel/attachments/20070823/fe5cbbbe/attachment-0001.bin>


Подробная информация о списке рассылки Devel