[sisyphus] [Sisyphus-cybertalk] I: Sisyphus-20061128 packages: +3! +13 (5661)

Ivan Adzhubey =?iso-8859-1?q?iadzhubey_=CE=C1_rics=2Ebwh=2Eharvard=2Eedu?=
Пт Дек 1 21:10:52 MSK 2006


On Friday 01 December 2006 12:44, Eugene Ostapets wrote:
> 01.12.06, Led<led ukr-fin.com.ua> написал(а):
> > В сообщении от 1 декабря 2006 18:18 Michael Shigorin написал(a):
> > > On Wed, Nov 29, 2006 at 10:03:59AM +0200, Eugene Ostapets wrote:
> > > > Я долго искал что-то, что способно русский pdf превратить в
> > > > читаемый html... Теперь буду искать что-то способное превратить
> > > > ТАКОЙ html в редактируемый:)
> > >
> > > tidy не?
> >
> > Открыть в kword и сохранить в LaTeX? Только, чтоб был "редактируемым",
> > tetex 3.0 собрать нужно:)
>
> Ага, щаз... Сначала открыть, kword, потом сохранить в latex, потом
> latex2html, потом полгода редактировать этот html чтобы получить
> вменяемый результат? Быстрее явно будет pdftotext+pdfimages и быстрая
> верстка в html... А меня интересует максимально автоматическое
> преобразование...

Могу поделиться опытом. Я в свое время перепробовал все, что только существует 
для PDF repurposing. Последний раз проверял по списку года два назад, может 
что-то и появилось драматически новое, но сильно сомневаюсь. Если отбросить 
масштабные коммерческие решения, стоящие многие тысячи долларов, то остается 
два пути: или перевод в изображение с последующим автоматическим OCR, или 
программы распарсивания (pdftotext, pdftohtml, и пр.). Все парсеры 
неидеальны, мягко говоря. OCR тоже, хотя например ABBY FineReader имеет 
неплохой специализированный модуль для перевода PDF to formatted text. У меня 
дело осложняется еще тем, что надо транслировать научно-технические тексты с 
формулами, таблицами, и пр. Особенно туго у всех переводчиков дело обстоит с 
надстрочными и подстрочными индексами ;-(. В общем после долгих экспериментов 
я могу сказать, что ничего лучше pdftohtml нет. Хотя он конечно далек от 
идеала тоже. Я пользуюсь его опцией перевода в XML и потом правлю результат 
своими перловскими скриптами. Кстати, я знаком с автором, он очень грамотный 
товарищ, жаль что у него нет времени поддерживать проект последние пару лет.

Если нужны еще советы - пишите в личку, постараюсь ответить.

--Иван


Подробная информация о списке рассылки Sisyphus