[devel] LZMA и 4.1

Alexey Tourbin =?iso-8859-1?q?at_=CE=C1_altlinux=2Eru?=
Чт Июн 19 18:12:27 MSD 2008


On Thu, Jun 19, 2008 at 03:49:25PM +0300, Led wrote:
> В сообщении от Thursday 19 June 2008 15:30:48 Alexey Tourbin написал(а):
> > Самый плохой способ группировки -- это случайное перемешивание файлов.
> > Осмысленная же группировка по каталогам всегда "less than random".
> 
> А то, что он (lzma) однотредовый - это издержки алгоритма или дизайна?

Новый формат контейнера (который пока alpha) предусматривает
параллельное сжатие и расжатие.

liblzma.git
doc/history.txt
    The new .lzma format allows dividing the data in multiple independent
    blocks, which can be compressed and uncompressed independenly. This
    makes multi-threading possible with algorithms that aren't inherently
    parallel (such as LZMA). There's also a central index of the sizes of
    the blocks, which makes it possible to do limited random-access reading
    with granularity of the block size.

Но я бы не советовал обольщаться на эту тему.  Как поиск по словарю,
так и частотное кодирование -- это по сути очень инкрементные алгоритмы,
и ничего распараллелить здесь на самом деле нельзя.  Распараллеливание
достигается за счёт "independent blocks", а это ухудшает сжатие.

То есть порубили файл на куски и давай сжимать по кускам.  При этом
сходство между кусками уже никак учесть нельзя.  А инкрементное
"скользящее окно" улавливает это сходство очень хорошо.
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя     : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип     : application/pgp-signature
Размер  : 197 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url     : <http://lists.altlinux.org/pipermail/devel/attachments/20080619/1a615cc9/attachment-0002.bin>


Подробная информация о списке рассылки Devel