[Comm] spamassassin
Alexander Leschinsky
=?iso-8859-1?q?byyjrtnybq_=CE=C1_ural=2Eru?=
Вс Мар 28 04:33:38 MSD 2004
Hello Тутов,
On Fri, 26 Mar 2004 14:25:36 +0300 (26.03.2004 17:25 my local time),
received Friday, March 26, 2004 at 22:23:59,
you wrote about "[Comm] spamassassin"
at least in part:
> Не хочу прерывать только завязавшуюся драку :) ,
Драки - не будет... Нашкодившего ребенка я (максимум) выпорю... как
только руки дойдут
> но хочется услышать мнение на сколько spamassassin эффективен
Сначала - немного более или менее теоретических рассуждений, потом
пойдут и чистые цифры.
Спамассассин от более ранних попыток (процмыльных un mass) отлчитается
тем, что вместо проверки одного (или их небольшого набора) условия и
принятия в соответствии с результатами проверки решения, он использует
систему правил для контекстного анализа всего письма, и в зависмости от
суммы сработавших правил (и собственных настроек) делает финальное
предположение о том, какой категории соответствует каждое сообщение.
Одной из сильных его сторон, несоменно, является и то, что кроме
локальных тестов (regexp-based) он также выполняет (может) сетевые
запросы, для получения более полной информации, насколько это возможно
(встроенные DNSBL-тесты, возможность интегрировать в себя результаты
запросов Razor, Pyzor, DCC) и реагировать более адекватно даже без
модификации правил и их re-scoring'a - как пример прогон через Razor...
это может быть очередной мутант, который не идентифицируется текущим
набором рулей, но если много народа сказали, что это - спам, то так оно
скорее всего и есть, и Ассассин добавляет заметную толику в начисленным
хитам
Еще год-полтора назад он действительно обеспечивал 90%+ процентов
фильтрации, но "на войне как на войне", и поскольку его базовый набор
открыт, были найдены методы для их обхода и обмана (более или менее
удачные), и результативность SA (даже с недавно добавленным байесом) не
настолько велика, чтобы можно было считать единственной панацеей, но и не
настролько мала, чтобы совсем выкидывать
Мне _лениво_ (честно признаю, лениво, и ничего более) доставать данные
по закрытым месяцам, хотя они у меня с ноября 2002 года где-то...
поэтому дам цифры только по нынешнему марту
(рули SA творчески переработаны и дополнены своими рулями и чужими
контрибами)
Пропущено - 5'660
из них более поздний DNSBL-check выдернул 243
вручную отмечены как спам 105
Поймано SA - 1'736
из них _только_ при помощи ~BAYES_99 - 34
изменение score BAYES_90 за предел выше спам отсечки
принципиально картину не изменит ~BAYES_9 - 55
Относить оцененные ниже 90% к спаму - это получить гарантированный
значительный процент FP
Вот такие цифры. Даже 80% процентов эффективности стоят того, чтобы работать и
использовать, думаю...
--
Best regards,
Alexander Leschinsky
Подробная информация о списке рассылки community