[Comm] Re: Еще о локали utf-8 и файле Compose
Anton V. Boyarshinov
=?iso-8859-1?q?boyarsh_=CE=C1_ru=2Eecho=2Efr?=
Чт Янв 29 10:23:19 MSK 2004
Добрый день
On Wed, 28 Jan 2004 21:00:40 +0300 Alexej Kryukov
wrote:
> Вот уж не думал, что мое письмо (посвященное конкретному
> техническому вопросу) послужит началом такого флейма!
Увы, тема уж очень флеймообразующая. Впрочем, флейм начался не с
вашего письма, а с утверждения что все неюникодные программы
следует отправить в /dev/null
> Но раз уж он начался, то позвольте высказаться в защиту локали
> UTF-8 (хотя я и начинал с того, что объяснял, как без нее
> обойтись).
>
> Конечно, есть еще коды, специфические для восточноазиатских
> языков, но это совсем особая тема. Те из традиционных для мира
> Unix программ, которые умеют работать с более старыми
> азиатскими кодировками, должны легко приспосабливаться и к
> Unicode.
Не уверен.
>
> > В unicode есть как акцентированные символы так и возможности
> > собирать их из кусков. Как должны работать с такими
> > конструкциями textutils?
>
> Как есть, так и выдавать. Это уж дело устройства вывода
> (а точнее -- используемого им шрифта), как оно будет
> показывать переданные ему юникодовые символы.
Это весьма неудобно как для поиска (придётся задавать оба
варианта), так и для отображения (пользователь заказал 3 символа,
видит то 3 то 2).
> > Это уж не говоря о том, что для полноценной работы с unicode
> > надо плотно использовать unicode database что сделает из
> > простых и быстрых инструментов монстров.
>
> В смысле, какого рода database? Это как раз насчет того, какой
> акцент с какой буквой какой акцентированный символ должны
> составлять?
В том числе и это. А также информацию о регистре для
регистронезависимого поиска. Боюсь, что это не всё.
> Но ведь практически ни одно юникодовое приложение
> в настоящее время такими познаниями не обладает.
Похоже, скоро будут, так как AFAIK в XML 2.0 парсеры обязали
проводить нормализацию для таких случаев.
> Да и не должно,
Не уверен.
PS шутка, но лишь наплолвину: в полностью юникодной системе
неплохо бы и бинарные файлы (в том числе исполняемые) хранить в
utf8, так как иначе юникодные программы будут на них спотыкаться
из за недопустимых символов.
--
mailto:boyarsh на mail.ru
mailto:boyarsh на ru.echo.fr
10:12:00 up 7 days, 19:20, 11 users, load average: 0.44, 0.37,
0.37
Подробная информация о списке рассылки community