[devel] LZMA и 4.1
Alexey Tourbin
=?iso-8859-1?q?at_=CE=C1_altlinux=2Eru?=
Чт Июн 19 18:12:27 MSD 2008
On Thu, Jun 19, 2008 at 03:49:25PM +0300, Led wrote:
> В сообщении от Thursday 19 June 2008 15:30:48 Alexey Tourbin написал(а):
> > Самый плохой способ группировки -- это случайное перемешивание файлов.
> > Осмысленная же группировка по каталогам всегда "less than random".
>
> А то, что он (lzma) однотредовый - это издержки алгоритма или дизайна?
Новый формат контейнера (который пока alpha) предусматривает
параллельное сжатие и расжатие.
liblzma.git
doc/history.txt
The new .lzma format allows dividing the data in multiple independent
blocks, which can be compressed and uncompressed independenly. This
makes multi-threading possible with algorithms that aren't inherently
parallel (such as LZMA). There's also a central index of the sizes of
the blocks, which makes it possible to do limited random-access reading
with granularity of the block size.
Но я бы не советовал обольщаться на эту тему. Как поиск по словарю,
так и частотное кодирование -- это по сути очень инкрементные алгоритмы,
и ничего распараллелить здесь на самом деле нельзя. Распараллеливание
достигается за счёт "independent blocks", а это ухудшает сжатие.
То есть порубили файл на куски и давай сжимать по кускам. При этом
сходство между кусками уже никак учесть нельзя. А инкрементное
"скользящее окно" улавливает это сходство очень хорошо.
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип : application/pgp-signature
Размер : 197 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url : <http://lists.altlinux.org/pipermail/devel/attachments/20080619/1a615cc9/attachment-0002.bin>
Подробная информация о списке рассылки Devel