[mdk-re] Re: Mandrake-russian digest, Vol 1 #1015 - 18 msgs

cornet =?iso-8859-1?q?cornet_=CE=C1_zmail=2Eru?=
Вт Май 22 19:22:26 MSD 2001


cornet wrote:
> 
> Диконов Вячеслав wrote:
> >
> > > Date: Sun, 20 May 2001 20:02:06 +0400
> > > From: Aleksey Novodvorsky <aen на logic.ru>
> > > Organization: Institute for logic
> > > To: mandrake-russian на altlinux.ru
> > > Subject: [mdk-re] Re: [mdk-re]
> > >
> > =?koi8-r?Q?=F2=C1=D3=D0=CF=DA=CE=CF=D7=C1=CE=C9=C5=20=D4=C5=CB=D3=D4=C1?=,
> > >  =?koi8-r?Q?=DE=C5=CD=3F?=
> > > Reply-To: mandrake-russian на altlinux.ru
> > >
> > > cornet wrote:
> > >
> > > > Hello, всем!
> > > >
> > > > Господа, а не подскажет ли кто, какая есть на свете софтина приличного
> > > > качества, предназначенная для распознавания аглицкого текста из
> > > > сканированых изображений?
> > > >
> > > > Желательно что бы понимала изображения в формате TIFF и колонки текста.
> > > > Софтина, разумеется, нужна под Линух, желательно, что бы из шелла
> > > > скриптовалась на множественную обработку кучи файлов.
> > >
> > > Приличная есть только коммерческая. Увы, забыл название.
> > >
> > > Rgrds, AEN
> >
> > Называется Vividata OCR Shop Pro www.vividata.com дают демку которая у меня
> > не работает так как распознавать текст без сетевой карты (спасибо защите)
> > низзя. Стоит $800, русский не понимает, но обучаема... Может быть возможно
> > натренировать.  Кто ее сломает и выпустит будет герой! И я ему все сделаю
> > что бы разломанную и работающую заполучить. А может запинать всем
> > сообществом AABBYYшников? FineReader то наш круче в 10 раз.
> 
> Сеньк!
> Ну и здорова же она - 12М тарбол, блин!
> Качаю помаленьку...

Ну что же...
Скачал.
Инсталлятор симпатичный но туповатый. К тому же там создаются скрипты с
идентичным содержимым, которые детектят имя вызова и ведут себя
соответственно имени, в приличных домах это делается симлинками на один
файл, а здесь насовали кучу копий одного и того же под разными именами
:-/ суксссььь...

Сама прога - в качестве предельно простой распознавалки - пойдет, но
запрашиваемых за нее 800$ она ни в коем случае не стоит!!! Не тот
уровень.

С монохромными tiff файлами с разрешением 400х400 и текстом в них
порядка 12 пунктов справляется вполне прилично, коэффициент ошибок при
беглом просмотре результата  - порядка 2%, что приятно.
Понимает колонки текста, причем да же если на странице есть несколько
рядов колонок с разным их количеством. Понимает атрибуты командной
строки, так что с консоли натравить его разом на кучу файлов можно,
атрибуты весьма богаты, практически полностью дублируют гуевое
междумордие :-)

Однако, результаты сохраняет только в txt, и хотя в пропертях есть куча
выходных форматов, от указания другого формата меняется только
расширение результирующего файла, НО не его содержимое!
Примерно на одном файле из 10 спотыкается без видимой причины, а в доках
номера error code не описаны, по этому что и из за чего происходит - не
понятно. При таких спотыканиях частенько выподает в кору, причем в ейных
логах на тему ошибок и падений нифига не оседает :-(
Опять же, система защиты - идиотская - вешает tcp демона на тачку,
который от nobody держит открытым порт не только на localhost но и на
eth0, что как то хреново и некрасиво :-/
На bmp файлах, которые создал gimp выпадает в кору.

Результат - смею рекомендовать к использованию в демо режиме на 30 дней,
как простенькую распознавалку, за неимением лучшего. Покупать ее -
выбрасывать деньги.

-- 
******** FIRE & STEEL ********




Подробная информация о списке рассылки community