[Comm] юникод

Ilya Kuznecov =?iso-8859-1?q?kuznecov_=CE=C1_blok-caf=2Eru?=
Пн Апр 21 07:44:27 MSD 2003


On Mon, 21 Apr 2003 00:10:16 +0400
"Sergey B." <noc на mail.spbnit.ru> wrote:

> Люди, расскажите, плиз о юникоде. О его перспективах и реалиях. Стоит ли на юникодную локаль систему настраивать??? Какие проблемы могут появиться??? Где об этом есть инфа???

Юникод -- способ кодирования текстовых данных таким образом, чтобы обеспечить возможности многоязычных текстов без искусственных указателей языка. В кодировке ASCII7 допустимы лишь английские символы, поэтому все восьмибитные кодировки на основе ASCII7 допускают лишь пары с английскими символами: русско-английские, франко-английские, немецко-английские, и т.д.

При передаче текста по сети (выкладывание на http, посылка почтой, и т.д.) информация о том, в какой кодировке написан текст, часто теряется или искажается. Русские виндузоиды часто выкладывают тексты в cp1251, юниксоиды -- в koi8-r, а некоторые хостинги часто вносят свою сумятицу.

При тотальном переходе на уникод (например, в виде utf-8) такие проблемы бы автоматически решались, потому что:
1) один язык -- одно языковое пространство. Нет бардака в виде "русский 1251/русский 866/русский koi8-r", все строго расписано.
2) все люди и программы привыкают к многоязычности (сейчас многие привыкли к двуязычности -- "мой родной <кукузский> и ascii-7"

Реалии на сегодня:
* многие современные ОС и решения или полностью основаны на уникоде (Plan9), или достаточно часто его используют (Linux, XFree86, Windows)
* Однако наследие давит и многие программы не понимают уникода из коробки (или благодаря создателям дистрибутивов, или из-за непонимания роли уникода авторами)

Поскольку вопрос сформулирован новичком, предлагаю Сергею сперва запустить uxterm (xterm -class UXTerm) и (необязательно) создать тестового пользователя с ~/.i18n вида "LANG=ru_RU.UTF-8". Поработай, пощщупай, сам решишь.
Я перешёл на уникод уже с полгода, положительных сторон много, непонимающие уникода программы или выкидываются, или запускаются в восьмибитной кодировке.
 
--
chumpa, Cybernetic Humanoid Used for Mathematics and Potential Assassination
kuznecov на blok-caf.ru       http://chumpa.izhnet.ru     icq 122393064




Подробная информация о списке рассылки community