[Comm] Как у нас обстоят дела с распознаванием текста?

Пт Июл 8 07:45:51 UTC 2011

08.07.2011 10:19, Olexander Chernetskyy пишет:

>  Жду советов.

Запросто!

>  Возникла необходимость распознавать текст.

 > Сизиф на запрос ocr сказал:
 > cuneiform, cuneiform-qt, ocrad, yagf
 > Вижу, что самое свежее - cuneiform+yagf

 > Какие еще есть решения?
 > Кто чем и насколько успешно пользуется?
 > Поделитесь, пожалуйста, опытом.

По-нужде надо было распознать газетный текст. Довольно объемный.
yagf - это лучшее что есть в опенсорс.
Распознаёт выделенные участки текста.
cuneiform-qt - нет.
Распознавалка очень чувствительна к вертикальной ориентации текста.
Без GIMP'а ну никак не обойтись.
Много надо делать правок после распознавания.
Нужен механизм коррекции распознавания и занесения символа(ов) в базу. Чего нет (или не увидел?).
С экранным текстом вероятно получше будет.
Но положа руку на сердце, если задача часто используемая, я бы всё-таки FineReader
попользовал.
А раз-два в год текст надо распознавать. Довольно много. :)
Когда-то давно пользовался им, Ридером, через wine.
Не сохраняет форматирования. Нет интеграции с приложениями, - оно и понятно.
Но задачу свою выполняет, а klipper никто не отменял.

Может кто-то ещё опытом поделится?