[Comm] Re: информация о документе

Aleksey E Birukov =?iso-8859-1?q?birukov_=CE=C1_vladinfo=2Eru?=
Ср Янв 19 13:19:36 MSK 2005


В сообщении от Среда 19 Январь 2005 13:10 Вячеслав Диконов написал(a):
> В Срд, 19/01/2005 в 01:03 +0300, Alexey Rusakov пишет:
> > Aleksey E Birukov wrote:
> > >>>>- посчитать частоту встречаемости слова в процентах?
> > >>
> > >>Керниган, Пайк "Среда программирования UNIX"
> > >
> > >может есть в электронном виде? (парсинг google ничего не дал)
> >
> > Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
>
> Задача не так уж и проста. 1) не все разделённые пробелами
> последовательности символов - слова. Есть языки, где слова вообще не
> разделяются. Есть сложносоставные слова. 2) Большинство слов имеет много
> форм. Особенно актуально для русского.
>
> В общем, для этого нужен морфологический анализатор и очень
> представительный морфологический словарь. Сделать программу,
> удовлетворительно решающую такую задачу можно, но добиться 100% точности
> и универсальности - теоретически нельзя.
Вобще, конечно, эту задачу пытаются решить поисковики с морфологией типа 
Яндекса. Вот скрипт, который делает примерно то, что мне надо:
http://www.promolab.ru/free/parser.php
Только разработка, к сожалению, закрытая. До GPL не доросли :)
-- 
$respect
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя     : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип     : application/pgp-signature
Размер  : 190 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url     : <http://lists.altlinux.org/pipermail/community/attachments/20050119/ce708fb6/attachment-0003.bin>


Подробная информация о списке рассылки community