[Comm] Re: информация о документе

Вячеслав Вячеслав
Ср Янв 19 13:10:17 MSK 2005


В Срд, 19/01/2005 в 01:03 +0300, Alexey Rusakov пишет:
> Aleksey E Birukov wrote:
> 
> >>>>- посчитать частоту встречаемости слова в процентах?
> >>Керниган, Пайк "Среда программирования UNIX"
> >может есть в электронном виде? (парсинг google ничего не дал)
> Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
Задача не так уж и проста. 1) не все разделённые пробелами
последовательности символов - слова. Есть языки, где слова вообще не
разделяются. Есть сложносоставные слова. 2) Большинство слов имеет много
форм. Особенно актуально для русского.

В общем, для этого нужен морфологический анализатор и очень
представительный морфологический словарь. Сделать программу,
удовлетворительно решающую такую задачу можно, но добиться 100% точности
и универсальности - теоретически нельзя. 
-- 
Вячеслав Диконов <linuxbox на degunino.net>


Подробная информация о списке рассылки community