[Comm] Re: Еще о локали utf-8 и файле Compose

Ср Янв 28 21:00:40 MSK 2004

On Wednesday 28 January 2004 13:04, Anton V. Boyarshinov wrote:
> > >
> > > ЧУШЬ!
> >
> > А аргументы?
>
> А ваши?

Вот уж не думал, что мое письмо (посвященное конкретному 
техническому вопросу) послужит началом такого флейма!
Но раз уж он начался, то позвольте высказаться в защиту локали
UTF-8 (хотя я и начинал с того, что объяснял, как без нее
обойтись).

> Существует большое количество традиционных для среды unix
> программ, которые unicode не поддерживают, причём добавка к ним
> поддержки unicode черезвычайно раздует их. Более того многие из
> них вообще трудно представить себе корректно работающими с
> unicode данными. В unicode есть управляющие символы, которые
> влияют на обработку следующих за ними символов. Должен ли grep
> добавлять в начало каждой выдаваемой строки все предшествовашие
> ей управляющие символы? а cut? Должен ли cut при резке по
> символам учитывать неотображаемые символы?

По-моему, управляющими следует считать только те символы,
относительно которых заведомо известно, что они управляющие.
Т. е. традиционные коды менее 32, а также Unicode LS/PS...
может быть, еще что-то. С остальными кодами надо обращаться
так, как если бы они были печатаемыми.

Конечно, есть еще коды, специфические для восточноазиатских
языков, но это совсем особая тема. Те из традиционных для мира 
Unix программ, которые умеют работать с более старыми азиатскими 
кодировками, должны легко приспосабливаться и к Unicode. А для
тех, которые не умеют, обычно существуют азиатские "двойники",
возможности которых и следует интегрировать в стандартные
версии (вот ведь emacs-mule тоже изначально был придуман для
восточных языков, а потом стал общим стандартом).

> В unicode есть как акцентированные символы так и возможности
> собирать их из кусков. Как должны работать с такими конструкциями
> textutils?

Как есть, так и выдавать. Это уж дело устройства вывода
(а точнее -- используемого им шрифта), как оно будет 
показывать переданные ему юникодовые символы. 

> Это уж не говоря о том, что для полноценной работы с unicode надо
> плотно использовать unicode database что сделает из простых и
> быстрых инструментов монстров.

В смысле, какого рода database? Это как раз насчет того, какой
акцент с какой буквой какой акцентированный символ должны
составлять? Но ведь практически ни одно юникодовое приложение
в настоящее время такими познаниями не обладает. Да и не должно,
ибо такого рода нагрузка должна ложиться в основном на шрифты.
Внедрение технологии OpenType в мире Unix -- задача действительно
важная, но к распространению локали utf-8 оно имеет лишь косвенное
отношение.