[Comm] Hunspell & new dicitonary

Sergey Kurakin sergeykurakin на gmail.com
Вс Мар 14 13:40:35 UTC 2010


On 03/13/2010 05:37 PM, anyr на tut.by wrote:
> Самой большой проблемой оказалось что, при минимальном количестве правил 
> некоторые не употребляемые (может быть только пока слова) считаются верными.

  Эта проблема возникает, если использовать механизм образования
сложносоставных слов.

> Возможно это можно победить написанием достаточно сложных для поставленной 
> задачи правил аффиксации, но я пока не рискну это сделать.

  Ваш подход как раз и позволяет это победить, но очень трудоемок.
И не понятно, как совместить результат вашей работы с общим словарем.

> Поэтому 
> откладываю незаконченным начатое и пойду по пути, которым ходили уже многие 
> - поиском недостающих слов.

  Вот и правильно!

> Времени на эти развлечения не много, но думаю, что уже к концу месяца поделю 
> небольшим, готовым к использованию, словарем.

  Желаю удачи.
  А по поводу подключения словарей к OOo могу сказать следующее:

  1. Использование нескольких словарей для одного языка в OOo сейчас
невозможно. Смотрел соответствующий код, там это прямо написано
в комментариях. Так что в любом случае придется напрямую добавлять
новые слова в существующий словарь. Другого способа совместить словари
в пределах одного языка в OOo сейчас нет.

  2. Ситуация с выбором рабочего словаря из нескольких системных в OOo
оказалась еще более запутанной. Если установлено несколько словарей для
одного языка, он попросту берет первый попавшийся!

https://bugzilla.altlinux.org/23118

  Поэтому, чтобы исключить неприятные случайности, надо чтобы ваш
словарь оказался единственным русским словарем в /usr/share/myspell/.
Но есть способ лучше.

  3. Можно сделать "словарь как расширение" (dictionary as extension).
Такие словари в формате myspell/hunspell (.dic + .aff) устанавливаются
в домашний каталог пользователя штатными средствами OOo и имеют
приоритет перед всеми системными словарями. Так что путаницы не
возникнет и не придется копаться в системных каталогах. Оформить
"словарь как расширение" на первый взгляд несложно, примеры можно
посмотреть здесь:

http://extensions.services.openoffice.org/dictionary

> P.S.: Добавлять специализированные термины может и имеет смысл в "общий" 
> словарь, но так он будет со временем очень огромным и трудно контролируемым.

  Что касается "словарей общего пользования", то меня здесь волнует
не размер, а "авторитетность". Если в словарь попадает медицинский
термин или малораспространенное слово -- в этом нет ничего плохого.
Плохо, когда словарь содержит слова сомнительные -- они подрывают
его авторитетность. Поэтому я добавляю лишь те слова, существование
и правописание которых могу документально подтвердить.

-- 
WBR,
Sergey Kurakin


Подробная информация о списке рассылки community