[devel] статистика
Хихин Руслан
=?iso-8859-1?q?hihin_=CE=C1_yandex=2Eru?=
Пт Авг 24 01:08:26 MSD 2007
Здравствуйте Alexey Tourbin
В сообщении от 23 августа 2007 Alexey Tourbin написал(a):
> On Thu, Aug 23, 2007 at 04:32:18PM +0400, Alexey Tourbin wrote:
> > Очень дорого это сколько, в новых деньгах? :)
> >
> >
> >
> > Я и это обсуждал с ldv на конференции. Порешили на том,
> >
> > что нужно поточнее прикинуть статистику. Какая пропускная
> >
> > способность сизифа и средняя загрузка сборочных серверов
> >
> > нам нужна, и сколько, исходя из этого, нужно сборочных серверов?
> >
> >
> >
> > Думаю, что в ближайшее время ответ на эти вопросы будет получен.
> >
> > Тогда можно ставить вопрос ребром. А заранее вопить "очень
> > дорого",
> >
> > впрочем как и "даёшь серверы" с пустыми руками и без понятия, это
> >
> > по-моему не стоит так делать.
>
> Я грепнул логи /raid/beehive/old-logs/i586/2007/0812/success/,
>
> выложил сюда: ftp://ftp.altlinux.org/pub/people/at/buildtime
>
>
>
> У меня получилась следующая первичная статистика:
>
> среднее время сборки 74 секунды, медиана распределения 27 секунд,
>
> сигма которая СКО она же стандартная девиация 189 секунд,
>
> максимальное время сборки 3273 секунды (у пакета kdebase).
>
>
>
> Гистограмма по смыслу похожа на распределение Максвелла. :)
>
> ftp://ftp.altlinux.org/pub/people/at/buildtime.png
>
>
>
> Теперь, если кто понимает в мат. статистике, я вопрошаю:
>
> что можно извлечь из этих данных?
>
>
>
> Начнем с простого вопроса: что дает среднее время сборки пакета?
>
> Ведь может попасться "неудачный" пакет, и рассчитывать, что он
> соберётся
>
> за минуту, нельзя (kdebase собирается целый час). Из статистики
>
> известно "правило трёх сигм" (правда, оно касается распределений,
>
> близких к нормальному). Это правило сводится к тому, что с
> надёжностью
>
> больше 99% случайная величина (время сборки) принимает значение
>
> (среднее)плюс-минус(3*сигма), и с надежностью около 95%
>
> (среднее)плюс-минус(2*сигма).
>
>
>
> Значит, чтобы нас не "прокатили" на "оптимистичном" среднем
> значении,
>
> нужно закладывать время сборки пакета 74+2*сигма=74+2*189=452
> секунды.
>
>
>
> С другой стороны, "время сборки" одного пакета по отношению к нашей
>
> задаче вообще имеет мало смысла. Мы ведь будем пересобирать серию
> из
>
> N пакетов подряд. Из статистики также известно (если чорт меня не
>
> попутал), что с увеличением размеров выборки сигма падает
>
> пропорционально 1/sqrt(N) -- то есть, на пальцах, "размах"
> отклонения
>
> суммарного времени падает за счет нивелирования выбросов.
>
> Это даёт следующую формулу:
>
>
>
> (ВРЕМЯ СБОРКИ СЛУЧАЙНО ВЫБРАННЫХ N src.rpm ПАКЕТОВ) <=
>
> N * (среднее + 2*сигма/sqrt(N))
>
> где
>
> среднее = 74 секунды
>
> сигма = 189 секунда
>
> неравенство выполняется с вероятностью около 90%.
>
>
>
> Прошу подписчиков листа обдумать это соображение. :)
т.е. для 1000 пакетов (область статисики) имеем ~ 74011 секунд или 20
часов 33 минуты ? а для 6685 пакетов, находящихся в Сизифе около 5
суток ? Ошибки в расчётах нет ?
--
С уважением Хихин Руслан
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип : application/pgp-signature
Размер : 189 байтов
Описание: This is a digitally signed message part.
Url : <http://lists.altlinux.org/pipermail/devel/attachments/20070824/35af613a/attachment-0001.bin>
Подробная информация о списке рассылки Devel