[Comm] Автораспознавание кодировки?

Денис Смирнов =?iso-8859-1?q?mithraen_=CE=C1_freesource=2Einfo?=
Пт Ноя 12 19:20:55 MSK 2004


On Fri, Nov 12, 2004 at 08:34:15AM +0300, Alexey V. Novikov wrote:

AVN> Денис, там делов-то отсилу на пару кило перловки.:) perl-MIME-tools в
AVN> зубы и "вперед и вверх", как говорил мой бывший научный руководитель.

У меня нервов до конца разобраться с perl-MIME-tools, увы, не хватило. 

К сожалению свой старый код автоопределялки кодировки (коий я ещё под OS/2
emx писал) я потерял, но новый, более интересный, почти готовый, всё
валяется в TODO. Просто определить кодировку элементарно. С надёжностью не
менее 0.1% ошибок на тексте по крайней мере длиной в одну строку.

Проблемы выползли у меня лишь на надёжном определении строчек типа
subject'ов из одного слова. То есть определять-то я их, конечно, мог. Но
для полной стабильности требовалось использовать статистику по триплетам,
а это уже, извините, даже если не учитывать case (что я и делал) требовало
оперативку мегабайтами, да и чтобы работало совсем-совсем быстро.

AVN> Другое дело, что особой потребности в этом я не вижу.

Это полезная маленькая рюшечка, за которую пользователи могут сказать
большое спасибо. Да и самому читать письма идиотов, пользующихся
вебмылами, которые выставляют кривой charset приходится. Так как бывает
что идиоты они только в этом, то нервы себе мотать не хочется.

-- 
С уважением, Денис

http://freesource.info




Подробная информация о списке рассылки community