[Comm] Re: информация о документе
Вячеслав
Вячеслав
Ср Янв 19 13:10:17 MSK 2005
В Срд, 19/01/2005 в 01:03 +0300, Alexey Rusakov пишет:
> Aleksey E Birukov wrote:
>
> >>>>- посчитать частоту встречаемости слова в процентах?
> >>Керниган, Пайк "Среда программирования UNIX"
> >может есть в электронном виде? (парсинг google ничего не дал)
> Я что-то не пойму, вы прикалываетесь или я недооцениваю сложность задачи?
Задача не так уж и проста. 1) не все разделённые пробелами
последовательности символов - слова. Есть языки, где слова вообще не
разделяются. Есть сложносоставные слова. 2) Большинство слов имеет много
форм. Особенно актуально для русского.
В общем, для этого нужен морфологический анализатор и очень
представительный морфологический словарь. Сделать программу,
удовлетворительно решающую такую задачу можно, но добиться 100% точности
и универсальности - теоретически нельзя.
--
Вячеслав Диконов <linuxbox на degunino.net>
Подробная информация о списке рассылки community