[Homeros] I: Ветка для украинского языка
Michael Pozhidaev
msp на altlinux.ru
Вс Июн 13 23:33:10 UTC 2010
Hello, tolyangin на mail.ru!
> Возможно можно задать шаблон для подмены звуков основываясь на
> попадание специфичных для украинского языка символов, в определенном
> отрывки текста. Например в предложении абзаце или нескольких
> абзацах или параграфе.
Это не получится, поскольку когда текст проходит через экранного чтеца,
он теряет всяческую информацию об абзацах и пр.
> что значит "потом подцепить натуральный украинский синтезатор"?
Ну сейчас мы занимаемся тем, что меняем текст так, чтобы русский
синтезатор мог бы его прочитать по-украински. В теории рано или поздно
может таки появиться натуральный синтезатор, который читает правильно
без всякой подмены. В случае использования tr, Вы просто пишете его
вызов и всё работает, а если Вы поменяете таблицы внутри сервера, то
натуральный синтезатор работать не станет, так как он всегда получает с
произведёнными подстановками. Нужно опять сидеть править таблицы и это
хоть и не сильно, но ломает философию voiceman как универсального
решения.
> Вы можете показать как составить такую таблицу?
Ну нужно взять кусок какого-нибудь украинского текста и попытаться его
открыть в emacs в кодировке koi8-r, сильно он испортиться или
нет. Понятно, пропадут чисто украинские буквы, но что произойдёт с
остальными.
> после добавления строк
>> ukr:и:ы
>> ukr:і:и
>
> он оба символа понимает как ы.
Да, сейчас у себя попробовал нечто похожее, выходит немного
неправильно. Механизм подстановок нужно поправить. Я сейчас точно буду
это делать, так как на последних экспериментах вылезли ещё неточности
при обработки пунктуации в mbrola, но, как писал раньше, мне кажется,
что использовать tr правильней. Сейчас попробовал, tr нормально понимает
utf-8, поэтому его можно писать прямо перед iconv. То есть:
tr 'ие' 'ыэ' | iconv ...
--
Michael Pozhidaev. Tomsk, Russia. E-mail: msp на altlinux.ru
Russian info page: http://www.marigostra.ru/
Подробная информация о списке рассылки Homeros