[sisyphus] I: recoll-1.10.0

Michael Shigorin =?iso-8859-1?q?mike_=CE=C1_osdn=2Eorg=2Eua?=
Пт Ноя 30 16:18:10 MSK 2007


On Fri, Nov 30, 2007 at 04:45:08PM +0400, Чернов Евгений wrote:
> >>recoll - Recoll is a personal full text search package
> >>- 1.10.0:
> Пересобрал его под свой компьютер(сизиф примерно месячной+
> давности).  Нормально заставить работать не удалось
> (проиндексировалась только часть файлов), хотя вешь интересная.

А что _не_ проиндексировалось?  Я исключаю из пакета хелпер для
*.lyx (он тащил за собой lyx, который тащил tetex-core -- сто
метров несколько многовато для скромной искалки).  Остальное
вроде входит всё.  Что не входит -- писать надо (дампилки в
plaintext).

> Баги не вешаю потому как весь софт уже не сизифовский может
> местные баги.

Тут критична только версия libxapian -- крэш-тест проводился дома
на 4.0/branch, libxapian-1.0.3-alt1, recoll-1.10.0-alt1.

> Вобщем в моем хоуме лежал файлик обозванный по русски с именем
> примерно 100 символьным на нём индексация падала(если что - на
> xfs домашний каталог с koi8-r).

Мгм.  Можете прислать _имя_?  xfs с koi8-r найдётся ;)

> Ради интереса оставил индексироваться почтовик от симанки.
> Писем в одном ящике под 200000, во втором под 100000. Ну и
> несколько ящиков по мелочи примерно по 1000 писем. Насколько я
> понял оно выдергивает все письма в файлы а потом индексирует.

Примерно.

> Падает с чем-то вроде key_ too long или term too long на
> каком-то письме.

Просьба сохранять вывод и по возможности (если это рассылки
или другая публичная информация) -- именно те данные, на которых
падает.  Тут хороший автор, можете и сами к нему сходить, но могу
и я.

> При удалении писем этих индексация пошла опять с начала ящика.

Да.

> Дождавшись через неизвестно сколько времени падения на другом
> письме с такой же ошибкой плюнул на всё это.Он вобще может
> запоминать в mbox письма которые уже проиндексировал и
> пропускать их?

Боюсь, нет -- mbox суть один файл, там гранулярность "уже видели"
-- пофайловая.

Но я подсовывал больше трёх гигабайт почты, ни разу индексатор 
не упал.  Вот год или полтора назад падал со страшной силой даже 
на гигабайте или двух, но тогда и xapian был заметно другой.

> Или есть какой ключик при ошибках пропускать файлики дальше
> продолжать индексацию?

Ммм... нет вроде, но мысль разумная, надо бы попросить.

> Да и ещё ругается на pstotext, которого естественно в сизифе
> нет. Он в ps вобще ищет без этого pstotext? Я для себя его
> собрал, чтобы не видеть ругани.

Ну так закиньте в сизиф?  Если лень связываться -- бросайте
src.rpm или .spec, соберу, но почти всегда лучше самому
присматривать за тем, что интересно.  Особенно если его ещё
не было.

Ergo: давайте попробуем сформировать чуть более конкретный
багрепорт, в идеале с использованием текущей версии xapian
(бишь взять из сизифа xapian, пересобрать, поставить, собрать
с ним recoll, поставить, проверить -- если собираете в hasher,
достаточно просто засунуть туда сперва xapian, потом recoll,
собранное rpm -Uvh).

-- 
 ---- WBR, Michael Shigorin <mike на altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/



Подробная информация о списке рассылки Sisyphus