[Comm] Автораспознавание кодировки?

Andrey Orlov =?iso-8859-1?q?cray=5F_=CE=C1_neural=2Eru?=
Сб Ноя 13 01:30:56 MSK 2004


On Monday 08 November 2004 23:22, Mikhail Ramendik wrote:
> Хотелось бы завести скрипт, который по статистике распознаёт кодировку 
> русского письма, а затем ставит ему правильный charset в header.

Посмотрите пакет RequestDecoder, это питоновский продукт к Zope который по статистике перекодировал текст в запросах
в правильную кодировку. Основан на анализе ~триграмм. Как показала практика - если текст больше десяти симворлов, 
он не ошибается. Даже в случае двойной неверной перекодировки. Использовался одно время на реальном сервере.

Пусть слово Zope вас не пугает, сам декодер полностью отчуждаем и там даже одельная тулза с командной строкой есть.

-- 
WthBstRgrds -- Андрей Орлов --  
 --- http: www.neural.ru, mail: cray на neural.ru, jid: cray на altlinux.org ---
----------------------------------------



Подробная информация о списке рассылки community