[mdk-re] Re: XML parser encodings
Mikhail Zabaluev
=?iso-8859-1?q?mhz_=CE=C1_alt-linux=2Eorg?=
Пт Ноя 16 12:51:16 MSK 2001
Hello mandrake-russian,
On Fri, Nov 16, 2001 at 12:38:03PM +0300, Mikhail Zabaluev wrote:
>
> > > Сие грамотно, разве что так тщательно нужно перекодировать только то
> > > место, где iconv спотыкается -- ведь функция сама двигает указатели,
> > > пока все OK.
> >
> > В общем случае это не проходит - исходная кодировка может быть
> > хитрой многобайтовой, поэтому пропустить мешающий символ сложно.
> > В UTF-8 такой проблемы нет.
>
> Тогда уж лучше в UCS-4, чтобы потом легко скакать по 32-битным словам.
> Минимизировать работу по трехступенчатой схеме все же можно: сделать
> lookahead на "сложном месте" байт в 6-8, чтобы любой известный науке
> многобайтовый символ мог проскочить. А потом продолжить прямую
> перекодировку с того места, где остановились указатели.
Подумав еще немного: нет, все же две разные перекодировки на одном месте
использовать опасно.
--
Stay tuned,
MhZ JID: mookid на jabber.org
___________
No one knows what he can do till he tries.
-- Publilius Syrus
Подробная информация о списке рассылки community