[Homeros] djvu & pdf
Max
heavy9922 на gmail.com
Вс Апр 24 19:12:21 MSK 2016
С "PDF" - всё так же, как я вам уже рассказывал, при нашей с вами личной
переписке. Есть программа "lios", котораяиспользует в своей работе
движки для распознавания текста "cuneiform", и "tesseract". Но у этой
программы, есть свои ограничения. Если я хорошо помню, то некоторые
картинчатые пидиэфки, мне неудалось толком распознать (хотя могу что-то
и перепутать). В любом случае, ограничения в этой программе заключаются
и в том, что она не использует в графическом интерфейсе, всех
возможностей утилит командной строки, т.е. этих самых движков, для
распознавания текста. В частности - есть явные проблему с
мультиязычностью. Русско-английский, при использовании "cuneiform", в
"lios" ещё выбрать можно; Однако если нужно использовать три языка, или
просто выбрать скажем русский и французский, то этого уже зделать не
получится. Если же выбрать "tesseract", то там, по-моему, в лиосе вобще
многоязычность указать нельзя.
Но это всё было на момент, когда я на "lios" смотрел. Возможно, что-то и
улучшилось за последние пару месяцев. Так же, вполне вероятно что лиос и
"DJVU" открывает, и распознаёт.
Так же, есть утилита командной строки "ocrpdf". Она использует движок
распознавания текстов "tesseract", при чём неприпятствует использованию
команд для этого движка. Врезультате выше описаного, можно непросто
распознать какую-нибудь пидиэфку, но и, в случае неудовлитворительного
для вас результата, улучшить распознавание, при помощи многочисленных
функций "tesseract". Имеется в виду как всякие вкусности, такие как к
примеру многоязычность, так и более улучшеная обработка картинчатых
пидиэфок, которую предоставляет "ocrpdf".
Насчёт того, как всем этим воспользоваться, я скромно умалчиваю.
"Ocrpdf" - это новая разработка, и скорее всего, не в убунтах не в
дебианах, её попросту нет (да и сам разработчик, кажется, сидит на
арче). Поэтому как там собрать "ocrpdf" в дебиане-убунту, я даже
непредставляю.
У "lios" же, какие-то пакеты были, так что может для того же дебиана,
что-то и есть.
И "lios", и "ocrpdf", есть в "AUR"; Поэтому пользователи, которые
используют либо арч, либо "manjaro", или же базирующийся на "manjaro"
"sonar", могут без особого труда, установить эти программы. Но и там
лучше знать все особенности устройства дистрибутива, т.к. для установки
"python-magicq", к примеру, нужно было когда-то понизить версии
некоторых пакетов. Сам процесс несложен, однако без знаний основ,
несовсем очевиден.
Guennadi Ivanov пишет:
> Добрый день! У меня есть две текстовые книги в pdf-и djvu-форматах. Но
> сделаны они в виде картинок, т.е. программа pdftotext их не берёт. Есть
> ли способ как-то прочитать эти книги или кроме finereader'а ничего
> придумать нельзя?
> С уважением,
> Геннадий
> _______________________________________________
> Homeros mailing list
> Homeros at lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/homeros
>
Подробная информация о списке рассылки Homeros