[Comm] Автораспознавание кодировки?
Andrey Orlov
=?iso-8859-1?q?cray=5F_=CE=C1_neural=2Eru?=
Сб Ноя 13 01:30:56 MSK 2004
On Monday 08 November 2004 23:22, Mikhail Ramendik wrote:
> Хотелось бы завести скрипт, который по статистике распознаёт кодировку
> русского письма, а затем ставит ему правильный charset в header.
Посмотрите пакет RequestDecoder, это питоновский продукт к Zope который по статистике перекодировал текст в запросах
в правильную кодировку. Основан на анализе ~триграмм. Как показала практика - если текст больше десяти симворлов,
он не ошибается. Даже в случае двойной неверной перекодировки. Использовался одно время на реальном сервере.
Пусть слово Zope вас не пугает, сам декодер полностью отчуждаем и там даже одельная тулза с командной строкой есть.
--
WthBstRgrds -- Андрей Орлов --
--- http: www.neural.ru, mail: cray на neural.ru, jid: cray на altlinux.org ---
----------------------------------------
Подробная информация о списке рассылки community