[Comm] Re: кодировки [JT]

Пт Янв 16 19:02:37 MSK 2004

On Friday 16 January 2004 18:17, Vitaly Ostanin wrote:
> On Fri, 16 Jan 2004 16:42:28 +0300
> >
> > И Вы полагаете, что M$ не поправила бы глюки с
> > западноевропейской кодовой страницей, если бы они там
> > когда-либо были?
>
> Я знаю много глюков, которые MS не исправляет.

Но не с западными же языками.

> > Я всё же полагаю, что это было не U+0092, а ANSI 0x92,
> > т. е. right single quotation mark.
>
> Я наткнулся на эту ситуацию при сборке XML документа на
> французском в pdf. Это именно U+0092 (&#146;), в pdf он попал
> белым квадратом (используется unicode-шрифт, нужный символ в нём
> есть, проверено с разными шрифтами). В html-выводе то же самое.

По-моему, U+0092 != &#146;. &#146; -- это *8-битный* символ,
отображение которого на Юникод зависит от текущей
кодовой страницы.

Еще раз. Судя по тому, что Вы пишете, Вам нужен был не
accent aigu, а именно апостроф. Код этого символа в кодировке
cp1252 -- именно 146 (0x92). Отображаться на Unicode он
должен как U+2019. В кодировке iso8859-1 этого символа
нет, поэтому приходится использовать символ с кодом 39, т. е.
[']. Но уж никак не 0xB4! Если он у Вас в pdf/html получился
квадратиком, то это всего лишь результат смешения кодировок,
т. е. на каком-то этапе Вы обрабатывали cp1252 так, как если
бы это была iso8859-1.