[mdk-re] Re: XML parser encodings

Mikhail Zabaluev =?iso-8859-1?q?mhz_=CE=C1_alt-linux=2Eorg?=
Пт Ноя 16 12:51:16 MSK 2001


Hello mandrake-russian,

On Fri, Nov 16, 2001 at 12:38:03PM +0300, Mikhail Zabaluev wrote:
>
> > > Сие грамотно, разве что так тщательно нужно перекодировать только то
> > > место, где iconv спотыкается -- ведь функция сама двигает указатели,
> > > пока все OK.
> > 
> > В общем случае это не проходит - исходная кодировка может быть
> > хитрой многобайтовой, поэтому пропустить мешающий символ сложно.
> > В UTF-8 такой проблемы нет.
> 
> Тогда уж лучше в UCS-4, чтобы потом легко скакать по 32-битным словам.
> Минимизировать работу по трехступенчатой схеме все же можно: сделать
> lookahead на "сложном месте" байт в 6-8, чтобы любой известный науке
> многобайтовый символ мог проскочить. А потом продолжить прямую
> перекодировку с того места, где остановились указатели.

Подумав еще немного: нет, все же две разные перекодировки на одном месте
использовать опасно.

-- 
Stay tuned,
  MhZ                                     JID: mookid на jabber.org
___________
No one knows what he can do till he tries.
		-- Publilius Syrus




Подробная информация о списке рассылки community