[devel] comprehensive rsyncability test

Anton Farygin =?iso-8859-1?q?rider_=CE=C1_altlinux=2Ecom?=
Пн Июн 2 14:46:46 MSD 2008



Alexander Bokovoy пишет:
> 2 июня 2008 г. 14:06 пользователь Alexey Tourbin <at на altlinux.ru> написал:
>>> При этом rsync скачал 1.57G.
>> Из интереса я запустил почти такой же тест, но для РАЗЖАТЫХ cpio.
>> Результаты получились следующие.
>>
>> $ cut -f4 cpio.txt |sum
>> 7091196
>> $
>>
>> Общий объем новых пакетов в разжатов виде 6.76G.
>>
>> $ cut -f6 cpio.txt |sum
>> 3330604
>> $
>>
>> При этом rsync скачал 3.18G, то есть 47% от расжатого объема.
>> Напомню, что для сжатых данных rsync скачал 67%.
>>
>> О чём это говорт?  Это говорит о том, что rsync даже в идеале
>> не является радикальным решением проблемы синхронизации пакетов.
>> ДАННЫЕ В ПАКЕТАХ РЕАЛЬНО МЕНЯЮТСЯ (в репрезентативной выборке --
>> примерно наполовину по объему), так что rsync заведомо имеет некоторый
>> эмпирический предел.  Нельзя найти ещё больше совпадающих кусков там,
>> где их нет.
>>
>> Это также говорит о том, что rsyncable deflate значительно уменьшает
>> максимально возможное значение rsyncability (отношение скаченного
>> rsync'ом к общему объему).  Это наводит на мысль, что rsyncable
>> compression по сути является компромиссом между compression и
>> rsyncability.  Ultimate compression получается при большой размере
>> словаря и исключает rsyncability.  А ultimate rsyncability получается
>> на несжатых данных.
> Это экстремальные ситуации. Поиск оптимума можно продолжать, но
> достигнутые 33% экономии в текущей ситуации вполне себя оправдывают.

Наверное, не стоит сбрасывать со счетов ещё необходимость пересборки 
всего существующего с новым алгоритмом сжатия.

Т.е. - по факту данное улучшение заработает для любого взятого пакета 
только на его третьем обновлении.

lzma будет заметно при первом же обновлении.





Подробная информация о списке рассылки Devel