[devel] rpm: rsyncable deflate vs LZMA

Alexey Tourbin =?iso-8859-1?q?at_=CE=C1_altlinux=2Eru?=
Пт Май 30 03:23:31 MSD 2008


On Fri, May 30, 2008 at 01:56:10AM +0400, Dmitry V. Levin wrote:
> On Fri, May 30, 2008 at 01:31:14AM +0400, Alexey Tourbin wrote:
> [...]
> > У меня есть идея.  Для выбора точек синхронизации (gzflush) можно
> > использовать не только "слепой" rsync hint, но и cpio hint -- как
> > только мы видим cpio magic "070707", мы знаем, что через несколько
> > байтов будет mtime и потом пойдёт имя и содержимое файла.  То есть
> > sync можно делать в месте окончания очередного cpio header.
> 
> Это заметно снизит степень сжатия, когда в архиве много маленьких файлов?

Этим можно управлять, чтобы сознательно пропускать только "совсем
маленькие" файлы.

> > Правда, я не знаю, даст это что-нибудь в случае с маленькими файлами
> > или нет.  Это может ничего не дать из-за того, что первые совпавшие
> > блоки в сжатом виде всё равно могут отличаться (из-за backreferences
> > в предыдущий блок).
> 
> Могут или будут?

Если сделать как показано ниже, то для пакета man-pages (после повторной
пересборки) 'speedup 1.09' возрастает до 'speedup 1.19'.  То есть эффект
от синхронизации сразу после cpio хедера есть, он заметный, но не
настолько большой, чтобы всё искупать.

--- rpmio.c-	2008-05-29 22:27:55 +0400
+++ rpmio.c	2008-05-30 03:08:32 +0400
@@ -2148,6 +2148,9 @@ struct rsync_state {
 typedef struct rpmGZFILE_s {
 	gzFile *gz;
 	struct rsync_state rs;
+	uint32_t cs; /* cpio state */
+	uint32_t nb; /* bytes pending for sync */
+
 } rpmGZFILE;
 
 static /*@null@*/ FD_t gzdOpen(const char * path, const char * fmode)
@@ -2274,6 +2277,56 @@ bool rsync_next(struct rsync_state *s, u
 	return false;
 }
 
+/* from ../lib/cpio.h */
+#define CPIO_NEWC_MAGIC "070701"
+#define PHYS_HDR_SIZE 110
+
+static inline
+bool sync_hint(rpmGZFILE *rpmgz, unsigned char c)
+{
+    /* sync only if at least nb_min bytes pending */
+    static const uint32_t nb_min = PHYS_HDR_SIZE + 1024;
+    rpmgz->nb++;
+    if (rpmgz->cs >= sizeof(CPIO_NEWC_MAGIC) - 1) {
+	/* cpio major progress, reset rsync */
+	rpmgz->rs.n = rpmgz->rs.sum = 0;
+	rpmgz->cs++;
+	if (rpmgz->cs >= PHYS_HDR_SIZE) {
+	    /* sync after cpio header */
+	    rpmgz->cs = 0;
+	    if (rpmgz->nb >= nb_min) {
+		rpmgz->nb = 0;
+		fprintf(stderr, "SYNC cpio\n");
+		return true;
+	    }
+	    else {
+		fprintf(stderr, "SKIP cpio\n");
+		return false;
+	    }
+	}
+    }
+    else if (CPIO_NEWC_MAGIC[rpmgz->cs] == c) {
+	/* cpio minor progress */
+	rpmgz->cs++;
+    }
+    else {
+	rpmgz->cs = 0;
+    }
+    if (rsync_next(&rpmgz->rs, c)) {
+	if (rpmgz->nb >= nb_min) {
+	    rpmgz->nb = 0;
+	    rpmgz->cs = 0;
+	    fprintf(stderr, "SYNC rsync\n");
+	    return true;
+	}
+	else {
+	    fprintf(stderr, "SKIP rsync\n");
+	    return false;
+	}
+    }
+    return false;
+}
+
 static ssize_t
 rsyncable_gzwrite(rpmGZFILE *rpmgz, const unsigned char *const buf, size_t len)
 {
@@ -2283,7 +2336,7 @@ rsyncable_gzwrite(rpmGZFILE *rpmgz, cons
     size_t i;
 
     for (i = 0; i < len; i++) {
-	if (rsync_next(&rpmgz->rs, buf[i])) {
+	if (sync_hint(rpmgz, buf[i])) {
 	    size_t n = i + 1 - (begin - buf);
 	    rc = gzwrite(rpmgz->gz, begin, n);
 	    if (rc < 0)
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя     : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип     : application/pgp-signature
Размер  : 197 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url     : <http://lists.altlinux.org/pipermail/devel/attachments/20080530/6526fa09/attachment-0002.bin>


Подробная информация о списке рассылки Devel