[Comm] UTF-8 а Master 2.2 [JT]
Anton Kovalenko
=?iso-8859-1?q?a=5Fkovalenko_=CE=C1_mtu-net=2Eru?=
Чт Мар 6 18:20:44 MSK 2003
>>>>> Aleksey Novodvorsky writes:
>> 2. поддержка bash (readline), textutils, fileutils с
>> точки зрения UTF8
> Поддержка UTF-8 базовыми утилитами Unix -- большая
> проблема, так как требует их серьезного концептуального
> пересмотра и тщательного аудита. Мое _личное_ мнение --
> сквозной переход Unix на UTF-8 locales практически
> невозможен, так как приведет к большим проблемам с
> security.
Это очень странно слышать. Сквозной переход на UTF-8 locales --
попросту бессмысленен. А вот корректная поддержка multibyte
characters, _частным случаем_ которой является UTF-8 -- уже
становится традицией.
Что же касается security, -- в системе, где имена файлов case
sensitive, да ещё с такой приличной кодировкой, как UTF-8 (где
невозможен \000 в середине строки, где любой встретившийся
символ из диапазона ascii всегда означает самого себя, где
никакой ascii-символ не имеет альтернативного представления) --
непонятно, откуда возьмутся проблемы.
> Ввод/вывод UTF-8 поддерживается в KDE, Gnome2, OOo,
> Mozilla, большинстве программ с GUI.
Это они зря. Ломают устоявшиеся и _вполне работающие_
классические иксовые решения для i18n, только для того, чтобы
работать с символами "вне локального charset". Впрочем, некоторым из них
простительно -- портабельность под Windows требует жертв.
Вот и Tk можно за это простить.
>> 3. поддержка UTF-8 в ncurses
>>
> Нет
Это при том, что upstream всё давно оттестировано и работает.
> Что касается перехода к единой (и единственной) кодировке
> всей системы,
А эту реплику, товарищи, мы с негодованием отметаем. От неё за
версту разит .... экзистенциоа... ао... нализьмом и неверием,
товарищи, в прогрессивную мощь человечества. В общем, не на тот
идеал смотрите.
Единая кодировка для обмена информацией между иксовыми
приложениями - COMPOUND_TEXT. Единая кодировка для удобного
хранения строк _внутри одного_ приложения - wchars (кстати,
постулировать, что "на самом деле wchars -- это unicode",
нельзя).
А для utf-8 роль Единой и Единственной вовсе не подходит. Она
просто частный случай в зоопарке многобайтовых кодировок. Причём
один из самых простых частных случаев.
P.S.
Между прочим, довольно интересно наблюдать за тем, как
развивается почти любой open-source проект, где одним из авторов
(или контрибуторов) становится японец. У такого проекта два пути
-- либо там появляется нормальная (с моей точки зрения)
поддержка i18n, либо рождается "японизированный" fork,
бесполезный всем остальным. Но первое бывает чаще, что не может
не радовать.
--
With Best /usr/bin/wishes,
Anton Kovalenko /* http://kovalenko.webzone.ru */
Подробная информация о списке рассылки community