[sisyphus] Распознавание текстов

Чт Апр 10 22:36:17 MSD 2003

On Thu, 10 Apr 2003, Arcady V. Ivanov wrote:

> Очень серьёзное заблуждение.

 Это личный опыт общения с OCR. Мы делали электронную библиотеку
полных текстов статей, большая часть которых была только на
бумаге...

> Лично у меня и БОЛЬШОГО моего окружения
> - это проблема. Я обслуживаю около тысячи корпоративных
> пользователей и
> большинство пользуются FineReader-ами всех сортов для самых
> рядовых
> действий -
> переделать приказы, сделать документацию, подготовить отчёт,

 Оба-на. Это же всё должно быть в электронной форме. Они что,
дурачки? Или их так сильно засношали злобные налоговые и прочие
вражеские органы? Тогда берданку в руки - и в леса, партизанить!

> сделать  реферат

 На фига *корпоративному* пользователю какой-то там реферат?
Или я ничего не соображаю...

> и ещё для очень многих работ. А о студентах и говорить не
> приходится.

 Каких студентах? Придурках, которые делают рефераты, надёргав
кусти текста из книг? Да их всех к стенке - и в биореактор.
Они ничуть не лучше тех, кто качает рефераты из Сети. Своих
мозгов нет, креативность нулевая. Кому они нужны?

> Качество воспроизведения FineReader-а таково, что тексты,
> иногда даже  таблицы, не приходится исправлять.

 Я бы поеврил, если б сам не пробовал. :(

 Можно сказать, какая версия FineReader-а и какой сканер дают
наиболее оптимальные результаты? На такую вкуснятину мне денег не
жалко.

> В банках стоит FineReader, заточенный под пакетную обработку
> платёжных  поручений.

 Вот в это ещё могу поверить - только и цена ошибки распознавания
тут велика - надёжнее (но не дешевле) посадить оператора, чтоб
внимательно вколачивал циферки. И чтоб нёс персональную
ответственность.

> Так что удивительная в 2003 году идея автора о бесполезности
> OCR, наверное
> зиждется на неудачном опыте с неудачным сканером и неудачной
> программой.

 Именно. Только я много чего перепробовал...

> Чем быстрее будет какое-нибудь рабочее OCR под Linux, тем
> быстрее можно
> будет
> взгромоздить Linux на стол рядовому пользователю. Они -
> пользователи,
> ещё как
> OCR сегодня уважают!

 Вот я и в сомнениях - не ошибаются ли они? Не было бы сомнений -
я бы и сам в свободное время к разработке OCR приложился б - мои
задачи весьма похожи (феноменология, блин - то же распознавание
образов - только многократно более сложное и менее
формализуемое).