[Homeros] ветка украинского языка

Швець Степан shvets_stepan на ukr.net
Пн Июн 14 20:21:51 UTC 2010


Здравствуйте все. Тут уже в который раз звучит лейт-мотив, что, дескать,
неудобно самостоятельно переключаться между разными способами прочтения
украинских и русских текстов.Лично я глубоко уверен, что это единственный
нормальный выход из положения.. Приведу некоторые мысли. по этому поводу из
недавнего моего письма Михаилу.
Виндовые проги уже давно и достаточно бойко разговаривают по-украински и, я
думаю, будет совсем не лишним обратить внимание на особенности их опыта в
этом деле. Поскольку я провел в компании данных прог не много, не мало, 10
лет, то мои наблюдения и соображения потенциально могут оказаться вам
кстати. Быть может удастся обойти те грабли, на которые разработчики тех
прог уже успели наступить.
Занимаються подобными вещами, в основном, СергейШешминцев и Сергей Волков.
Первый живет в Киеве, а второй - где-то у вас, в Росии. Шешминцев ведет два
любопытных авторских проекта: "Fileintegrator" (прога, напоминающая по
функциональным возможностям и внешнему виду файловый менеджер "фар") и
"bookmania" (прога, умеющая генерировать на основе входного текстового файла
mp3-файлы). Между прочим, было бы недурно, состряпать что-то подобное и под
"linux". Скажем, я очень и очень активно пользуюсь этой чудной эмпэтрилкой.
А вот Волков занимается русско и украиноязычным синтезатором речи для
виндового скринридера "Jaws". Так вот самое интересное, что оба эти
джэнтльмена, в свое время делали попытки обучить свои проги автоматически
распознавать язык текста и корректировать правила его прочтения. Оба же они
и отказались от них, буквально в следующих же версиях своих прог. Поясню
подробнее.
В украинском и русском языках чрезвычайно часто встречаются буквы "и" и "е".
Намного чаще, чем "?", "?", "'" и "?" В украинском и "ы", "э"и "ъ"в русском.
И мало того, что они чаще встречаются, так они еще и по разному
произносятся. По разному же произносятся и такие сочетания как "ться", "ця"
и им подобные мягкие. В русском языке они произносятся достаточно твердо, а
вот в украинском - наоборот. Думаю, для вас не составит большього труда
написать на русском языке предложение-другое, в которых букв "ы" и "э"
просто не будет. То же самое, я без труда сделаю на украинском. И теперь
представьте ситуацию: открываю я украинский текст,, в котором в первых
нескольких предложениях попросту нет указанных букв-индикаторов. Что делает
сервер, он читает украинские слова с учетом русской фонетики. Что делаю я,
останавливаю его и начинаю, начем свет стоит, крыть и сервер и его
разработчика. А потом, попросту ищу более приемлемое решение своих нужд. Вот
скажите, нужно оно вам? Поверте мне наслово, что так и будет при
автоматическом детектировании. Думаю, Шешминцев и Волков много услышали в
свой адрес "лестных" слов. Не просто так ведь они быстренько отказались от
подобного решения. А тем всем,которым, видите ли, влом кнопочку лишний раз
нажать, вы все равно не угодите и они будут далеко не последними в рядах
матерящих вас за вашу "тупую и безтолковую прогу". А ведь проблемы на
фонетике не закончатся. Ведь в украинском языке очень и очень много ударений
расставляется совсем не так, как в русском. Скажем, оба Сергея уже давно
поставляют в пакетах своих прог отдельный словарь для украинского языка. И
вот сдесь-то, я возможно смог бы оказать вам посильную помощь. Свой родной
язык, так уж сложилось, я знаю лучше, чем язык программирования.
-----Original Message-----
From: homeros-bounces at lists.altlinux.org
[mailto:homeros-bounces at lists.altlinux.org]On Behalf Of
homeros-request at lists.altlinux.org
Sent: Monday, June 14, 2010 6:52 PM
To: homeros at lists.altlinux.org
Subject: Дайджест списка рассылки Homeros; том 19, выпуск 17


Сообщения, предназначенные для списка рассылки Homeros, необходимо
отправлять по адресу
	homeros at lists.altlinux.org

Для изменения параметров подписки вы можеже использовать веб-страницу
	https://lists.altlinux.org/mailman/listinfo/homeros

Для получения информации о том, как пользовать почтовым интерфейсом,
отправьте письмо, в теле или теме которого будет слово 'help', по
адресу:
	homeros-request at lists.altlinux.org

Адрес человека, ответственного за этот список рассылки:
	homeros-owner at lists.altlinux.org

При ответе, пожалуйста, измение тему письма так, чтобы она была более
содержательной чем "Re: Содержание дайджеста списка рассылки
Homeros..."


В этом номере:

   1. Re: I: Ветка для украинского языка (Lex)
   2. Re: I: Ветка для украинского языка (tolyangin at mail.ru)
   3. Re: I: Ветка для украинского языка (Michael Pozhidaev)
   4. Re: ***SPAM*** Re: I: Ветка для украинского языка (lyt at ivc.com.ua)
   5. Re: ***SPAM*** Re: ***SPAM***  I: Про украинский язык
      (Леонидов Геннадий Иванович)
   6. Re: ***SPAM*** Re: ***SPAM***  I: Про украинский язык
      (tolyangin at mail.ru)


----------------------------------------------------------------------

Message: 1
Date: Sun, 13 Jun 2010 22:36:12 +0300
From: Lex <lex at progger.ru>
To: Использование продуктов ALT Linux без зрительного контроля
	<homeros at lists.altlinux.org>
Subject: Re: [Homeros] I: Ветка для украинского языка
Message-ID: <4C15332C.3090509 at progger.ru>
Content-Type: text/plain; charset=KOI8-R; format=flowed

13.06.2010 21:37, tolyangin at mail.ru пишет:
> Насколько понял, в письме Лекса речь идет о возможности смены настроек
> синтезатора, в том числе и языка чтения , для каждого отдельного окна,
> а не возможном варианте чтения текста на смешаных славянских языках.
>
Уточню, что изменения, произведенные в кольце настроек синтезатора
сохраняются для всей сессии, а не для одного окна.
Вариант чтения текста на двух словянских языках я какраз и описал:
пользователь переключает язык по мере надобности.
Способов распознать язык автоматически с приемлемой достоверностью я не
знаю. Особенно, если учитывать межязыковые омонимы, и т.п. Есть слова,
которые и в русском и в украинском пишутся одинаково, но читаются по
разному.

Lex


------------------------------

Message: 2
Date: Mon, 14 Jun 2010 00:59:53 +0300
From: tolyangin at mail.ru
To: Использование продуктов ALT Linux без зрительного контроля
	<homeros at lists.altlinux.org>
Subject: Re: [Homeros] I: Ветка для украинского языка
Message-ID: <877hm2y4o6.fsf at mail.ru>
Content-Type: text/plain; charset=utf-8

Michael Pozhidaev wrote:

> Hello, tolyangin at mail.ru!
>
>> Вот новый оутпут  - третий,  добавить как раз и не получилось.
>
> Тут можно поразбираться, если пришлёте конфиг с ошибкой.

Потом обязательно пришлю. >
>> Как тогда быть с буквами "и" ""е"?  В обоих языках они
>> присутствуют, но читаются по разному В случае с "е" думаю не так
>> страшно, в большинстве случаев по русски она всеравно читается как
>> -э.
>
> Тут затрудняюсь что-нибудь предложить. Поскольку наделить супер
> мозгами наш софт мы не можем, остаётся только размышлять, Как это
> будет приемлемо по удобству для пользователей.
Возможно можно задать шаблон для подмены звуков основываясь на
попадание специфичных для украинского языка символов, в определенном
отрывки текста.  Например в предложении  абзаце  или нескольких
абзацах или параграфе.

О чем то таком писал Степан.

Не знаю можно ли такой шаблон написать с tr, но может быть sed?


>
> Всегда есть возможность сделать ручку, которая что-нибудь
> переключала бы в сервере. В общем, если народ опишет, как он хотел
> бы это видеть на практике, можно придумать, как это реализовать.
>
>> Хотя мне именно такой подход, о каком вы тут говорите,  больше
>> интересен.
>
> Ну да, тоже думал, что без этого должно быть неудобно.
>
>> Опишите здесь каким образом можно настраивать звучание произношения
>> .  Какие секции за что отвечают.
>
> Есть два пути настроить звучание букв:
>
> 1. в вызове синтезатора между iconv и ru_tts добавить ещё вызов tr,
> где составить таблицу замен символов. Подход универсальней, так как
> проще потом подцепить натуральный украинский синтезатор. Но тут надо

что значит "потом подцепить натуральный украинский синтезатор"?

>
> знать, кодировки koi8-r и koi8-u держат одинаковые буквы на одних
> местах или нет. То есть, если я возьму текст в koi8-u, где
> используются только буквы, присутствующие в русском языке, нормально
> он прочитается в koi8-r;
>
Вы можете показать как составить такую таблицу?
Потому что второй вариант оказался малоприглядным..


> 2. добавить нужные записи в файл replacements.all. То есть строки
> вида:
>
> ukr:и:ы
>


после добавления строк
> ukr:и:ы
> ukr:?:и


он оба символа понимает как ы.


Притом мне не понятно.
В одних текстах он читает везде -ы. В других такое впечатление что
правило не срабатывает и  вроде как  не существует вовсе.


написание в емаксе он читает с новыми настройками, а вот весь
браузенинг читает как и раньше, по русски.
Качество чтения большинства текста на выходе получается  не важным.

С остальными символами тоже непонятки. Но я запарюсь ситуации описывать,
сам уже начинаю путаться где какая буква.


Он обе букв? начинает ч?
> Поскольку файлы replacements всегда кодируются через utf-8, то без
> опаски можно указывать там и русские и украинские буквы. Мне первый
> вариант более симпатичен, но выбор за пользователями.

------------------------------

Message: 3
Date: Mon, 14 Jun 2010 06:33:10 +0700
From: Michael Pozhidaev <msp at altlinux.ru>
To: Использование продуктов ALT Linux без зрительного контроля
	<homeros at lists.altlinux.org>
Subject: Re: [Homeros] I: Ветка для украинского языка
Message-ID: <m3k4q2mrt5.fsf at blard.localdomain>
Content-Type: text/plain; charset=utf-8

Hello, tolyangin at mail.ru!

> Возможно можно задать шаблон для подмены звуков основываясь на
> попадание специфичных для украинского языка символов, в определенном
> отрывки текста.  Например в предложении  абзаце  или нескольких
> абзацах или параграфе.

Это не получится, поскольку когда текст проходит через экранного чтеца,
он теряет всяческую информацию об абзацах и пр.

> что значит "потом подцепить натуральный украинский синтезатор"?

Ну сейчас мы занимаемся тем, что меняем текст так, чтобы русский
синтезатор мог бы его прочитать по-украински. В теории рано или поздно
может таки появиться натуральный синтезатор, который читает правильно
без всякой подмены. В случае использования tr, Вы просто пишете его
вызов и всё работает, а если Вы поменяете таблицы внутри сервера, то
натуральный синтезатор работать не станет, так как он всегда получает с
произведёнными подстановками. Нужно опять сидеть править таблицы и это
хоть и не сильно, но ломает философию voiceman как универсального
решения.

> Вы можете показать как составить такую таблицу?

Ну нужно взять кусок какого-нибудь украинского текста и попытаться его
открыть в emacs в кодировке koi8-r, сильно он испортиться или
нет. Понятно, пропадут чисто украинские буквы, но что произойдёт с
остальными.

> после добавления строк
>> ukr:и:ы
>> ukr:?:и
>
> он оба символа понимает как ы.

Да, сейчас у себя попробовал нечто похожее, выходит немного
неправильно. Механизм подстановок нужно поправить. Я сейчас точно буду
это делать, так как на последних экспериментах вылезли ещё неточности
при обработки пунктуации в mbrola, но, как писал раньше, мне кажется,
что использовать tr правильней. Сейчас попробовал, tr нормально понимает
utf-8, поэтому его можно писать прямо перед iconv. То есть:

tr 'ие' 'ыэ' | iconv ...

--
Michael Pozhidaev. Tomsk, Russia. E-mail: msp at altlinux.ru
Russian info page: http://www.marigostra.ru/

------------------------------

Message: 4
Date: Mon, 14 Jun 2010 08:40:41 +0300
From: <lyt at ivc.com.ua>
To: Использование продуктов ALT Linux без зрительного контроля
	<homeros at lists.altlinux.org>
Subject: Re: [Homeros] ***SPAM*** Re: I: Ветка для украинского языка
Message-ID: <002301cb0b84$2e632830$132a050a at andrey9f15d4e0>
Content-Type: text/plain; format=flowed; charset="koi8-r";
	reply-type=response

Приветствую всех!
цитата:
приходим к тому, что пользователь должен сам
переключать язык синтезатора.
конец цитаты.
Мне думается, что это не самый лучший вариант. Ибо чтение
смешанного(русско-украинского) текста становится весьма дискомфортным.
Именно так осуществлено в jaws. Через горячие клавиши, или меню переключаешь
синтезатор русский, или украинский. Очень неудобно.
Я думаю, что лучше просто добавить некоторые символы, которых нет в русском,
а прочие оставить, как есть. По моему мнению, лучше уж пожертвовать немного
правильностью произношения, но дать возможность читать
смешанные(русско-украинские) тексты.
А, в дальнейшем, если это реально, можно будет добавить и другие
кириллические символы. В том числе и те, которые уже не используются("ять",
"ижица" и другие). Это позволит читать старинные тексты. "челюсти" фор
виндоуз этого не могут.
Андрей.



------------------------------

Message: 5
Date: Mon, 14 Jun 2010 13:12:58 +0400
From: Леонидов Геннадий Иванович <leonidovgi at gmail.com>
To: Использование продуктов ALT Linux без зрительного контроля
	<homeros at lists.altlinux.org>
Subject: Re: [Homeros] ***SPAM*** Re: ***SPAM***  I: Про украинский
	язык
Message-ID: <00ea01cb0ba1$ca5d8d80$f100a8c0 at user>
Content-Type: text/plain; format=flowed; charset="koi8-r";
	reply-type=original

   Здравствуйте!

>
> Советую меньше размышлять на эту материю , а установить хоть что
> нибудь .
>
> В чем проблема? Инсталятор убунты озвучивается прекрасно, установка
> системы проще не придумаешь.
>
  А у меня в ubuntu10.04 инсталятор не озвучивается.
> _______________________________________________
> Homeros mailing list
> Homeros at lists.altlinux.org
> https://lists.altlinux.org/mailman/listinfo/homeros
>



------------------------------

Message: 6
Date: Mon, 14 Jun 2010 18:41:09 +0300
From: tolyangin at mail.ru
To: Использование продуктов ALT Linux без зрительного контроля
	<homeros at lists.altlinux.org>
Subject: Re: [Homeros] ***SPAM*** Re: ***SPAM***  I: Про украинский
	язык
Message-ID: <877hm1wrje.fsf at mail.ru>
Content-Type: text/plain; charset=koi8-r

Леонидов Геннадий Иванович wrote:
>>
>> В чем проблема? Инсталятор убунты озвучивается прекрасно, установка
>> системы проще не придумаешь.
>>
> А у меня в ubuntu10.04 инсталятор не озвучивается.

Каким образом вы его пытались озвучить?  Загрузившись в режиме livecd
орка у вас вообще разговаривает?  Я не могу сказать с увереностью
озвучивается ли инсталятор speech-dispatcher'ом так как трансляцией
речи во время инсталляции  убунты у меня занимался voicemand.

Но считаю что и speech-dispatcher это обязан делать.


------------------------------

_______________________________________________
Homeros mailing list
Homeros at lists.altlinux.org
https://lists.altlinux.org/mailman/listinfo/homeros


Конец Дайджест списка рассылки Homeros; том 19, выпуск 17
*********************************************************



Подробная информация о списке рассылки Homeros