[Comm] Автораспознавание кодировки?

Денис Смирнов =?iso-8859-1?q?mithraen_=CE=C1_freesource=2Einfo?=
Сб Ноя 13 18:16:01 MSK 2004


On Sat, Nov 13, 2004 at 01:30:56AM +0300, Andrey Orlov wrote:

 AO> Посмотрите пакет RequestDecoder, это питоновский продукт к Zope который по статистике перекодировал текст в запросах
 AO> в правильную кодировку. Основан на анализе ~триграмм. Как показала практика - если текст больше десяти симворлов, 
 AO> он не ошибается. Даже в случае двойной неверной перекодировки. Использовался одно время на реальном сервере.
 AO> Пусть слово Zope вас не пугает, сам декодер полностью отчуждаем и там даже одельная тулза с командной строкой есть.

О! Спасибо большое, обязательно посмотрю.

Хотя 10 мало :) Без двойных перекодировки у меня и по парам символов
нормально обрабатывал.

Кстати я понял, почему на пайтоне он не жручий к памяти получился. В C для
этого, если не морочить себе голову, я просто использовал массивы. Которые
получались очень разряжёными массивами. А потом по такому массиву ещё и
fullscan делать приходилось, со всеми соответствующими последствиями. А на
реальном тексте это нафиг не надо.

-- 
С уважением, Денис

http://freesource.info




Подробная информация о списке рассылки community