[Comm] Автораспознавание кодировки?
Денис Смирнов
=?iso-8859-1?q?mithraen_=CE=C1_freesource=2Einfo?=
Сб Ноя 13 18:16:01 MSK 2004
On Sat, Nov 13, 2004 at 01:30:56AM +0300, Andrey Orlov wrote:
AO> Посмотрите пакет RequestDecoder, это питоновский продукт к Zope который по статистике перекодировал текст в запросах
AO> в правильную кодировку. Основан на анализе ~триграмм. Как показала практика - если текст больше десяти симворлов,
AO> он не ошибается. Даже в случае двойной неверной перекодировки. Использовался одно время на реальном сервере.
AO> Пусть слово Zope вас не пугает, сам декодер полностью отчуждаем и там даже одельная тулза с командной строкой есть.
О! Спасибо большое, обязательно посмотрю.
Хотя 10 мало :) Без двойных перекодировки у меня и по парам символов
нормально обрабатывал.
Кстати я понял, почему на пайтоне он не жручий к памяти получился. В C для
этого, если не морочить себе голову, я просто использовал массивы. Которые
получались очень разряжёными массивами. А потом по такому массиву ещё и
fullscan делать приходилось, со всеми соответствующими последствиями. А на
реальном тексте это нафиг не надо.
--
С уважением, Денис
http://freesource.info
Подробная информация о списке рассылки community