[Homeros] djvu & pdf

Max heavy9922 на gmail.com
Вс Апр 24 19:12:21 MSK 2016


С "PDF" - всё так же, как я вам уже рассказывал, при нашей с вами личной 
переписке. Есть программа "lios", котораяиспользует в своей работе 
движки для распознавания текста "cuneiform", и "tesseract". Но у этой 
программы, есть свои ограничения. Если я хорошо помню, то некоторые 
картинчатые пидиэфки, мне неудалось толком распознать (хотя могу что-то 
и перепутать). В любом случае, ограничения в этой программе заключаются 
и в том, что она не использует в графическом интерфейсе, всех 
возможностей утилит командной строки, т.е. этих самых движков, для 
распознавания текста. В частности - есть явные проблему с 
мультиязычностью. Русско-английский, при использовании "cuneiform", в 
"lios" ещё выбрать можно; Однако если нужно использовать три языка, или 
просто выбрать скажем русский и французский, то этого уже зделать не 
получится. Если же выбрать "tesseract", то там, по-моему, в лиосе вобще 
многоязычность указать нельзя.
Но это всё было на момент, когда я на "lios" смотрел. Возможно, что-то и 
улучшилось за последние пару месяцев. Так же, вполне вероятно что лиос и 
"DJVU" открывает, и распознаёт.
Так же, есть утилита командной строки "ocrpdf". Она использует движок 
распознавания текстов "tesseract", при чём неприпятствует использованию 
команд для этого движка. Врезультате выше описаного, можно непросто 
распознать какую-нибудь пидиэфку, но и, в случае неудовлитворительного 
для вас результата, улучшить распознавание, при помощи многочисленных 
функций "tesseract". Имеется в виду как всякие вкусности, такие как к 
примеру многоязычность, так и более улучшеная обработка картинчатых 
пидиэфок, которую предоставляет "ocrpdf".
Насчёт того, как всем этим воспользоваться, я скромно умалчиваю. 
"Ocrpdf" - это новая разработка, и скорее всего, не в убунтах не в 
дебианах, её попросту нет (да и сам разработчик, кажется, сидит на 
арче). Поэтому как там собрать "ocrpdf" в дебиане-убунту, я даже 
непредставляю.
У "lios" же, какие-то пакеты были, так что может для того же дебиана, 
что-то и есть.
И "lios", и "ocrpdf", есть в "AUR"; Поэтому пользователи, которые 
используют либо арч, либо "manjaro", или же базирующийся на "manjaro" 
"sonar", могут без особого труда, установить эти программы. Но и там 
лучше знать все особенности устройства дистрибутива, т.к. для установки 
"python-magicq", к примеру, нужно было когда-то понизить версии 
некоторых пакетов. Сам процесс несложен, однако без знаний основ, 
несовсем очевиден.

Guennadi Ivanov пишет:
> Добрый день! У меня есть две текстовые книги в pdf-и djvu-форматах. Но
> сделаны они в виде картинок, т.е. программа pdftotext их не берёт. Есть
> ли способ как-то прочитать эти книги или кроме finereader'а ничего
> придумать нельзя?
> С уважением,
> Геннадий
> _______________________________________________
> Homeros mailing list
> Homeros at lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/homeros
>


Подробная информация о списке рассылки Homeros