[Comm] Автораспознавание кодировки?
Денис Смирнов
=?iso-8859-1?q?mithraen_=CE=C1_freesource=2Einfo?=
Пт Ноя 12 19:20:55 MSK 2004
On Fri, Nov 12, 2004 at 08:34:15AM +0300, Alexey V. Novikov wrote:
AVN> Денис, там делов-то отсилу на пару кило перловки.:) perl-MIME-tools в
AVN> зубы и "вперед и вверх", как говорил мой бывший научный руководитель.
У меня нервов до конца разобраться с perl-MIME-tools, увы, не хватило.
К сожалению свой старый код автоопределялки кодировки (коий я ещё под OS/2
emx писал) я потерял, но новый, более интересный, почти готовый, всё
валяется в TODO. Просто определить кодировку элементарно. С надёжностью не
менее 0.1% ошибок на тексте по крайней мере длиной в одну строку.
Проблемы выползли у меня лишь на надёжном определении строчек типа
subject'ов из одного слова. То есть определять-то я их, конечно, мог. Но
для полной стабильности требовалось использовать статистику по триплетам,
а это уже, извините, даже если не учитывать case (что я и делал) требовало
оперативку мегабайтами, да и чтобы работало совсем-совсем быстро.
AVN> Другое дело, что особой потребности в этом я не вижу.
Это полезная маленькая рюшечка, за которую пользователи могут сказать
большое спасибо. Да и самому читать письма идиотов, пользующихся
вебмылами, которые выставляют кривой charset приходится. Так как бывает
что идиоты они только в этом, то нервы себе мотать не хочется.
--
С уважением, Денис
http://freesource.info
Подробная информация о списке рассылки community