[Comm] spamassassin

Alexander Leschinsky =?iso-8859-1?q?byyjrtnybq_=CE=C1_ural=2Eru?=
Вс Мар 28 04:33:38 MSD 2004


Hello Тутов,

   On Fri, 26 Mar 2004 14:25:36 +0300 (26.03.2004 17:25 my local time),
   received Friday, March 26, 2004 at 22:23:59,
   you wrote about "[Comm] spamassassin"
   at least in part:

>  Не хочу прерывать только завязавшуюся драку :) ,
Драки - не будет... Нашкодившего ребенка я (максимум) выпорю... как
только руки дойдут

> но хочется услышать мнение на сколько spamassassin эффективен
Сначала - немного более или менее теоретических рассуждений, потом
пойдут и чистые цифры.

Спамассассин от более ранних попыток (процмыльных un mass) отлчитается
тем, что вместо проверки одного (или их небольшого набора) условия и
принятия в соответствии с результатами проверки решения, он использует
систему правил для контекстного анализа всего письма, и в зависмости от
суммы сработавших правил (и собственных настроек) делает финальное
предположение о том, какой категории соответствует каждое сообщение.
Одной из сильных его сторон, несоменно, является и то, что кроме
локальных тестов (regexp-based) он также выполняет (может) сетевые
запросы, для получения более полной информации, насколько это возможно
(встроенные DNSBL-тесты, возможность интегрировать в себя результаты
запросов Razor, Pyzor, DCC) и реагировать более адекватно даже без
модификации правил и их re-scoring'a - как пример прогон через Razor...
это может быть очередной мутант, который не идентифицируется текущим
набором рулей, но если много народа сказали, что это - спам, то так оно
скорее всего и есть, и Ассассин добавляет заметную толику в начисленным
хитам

Еще год-полтора назад он действительно обеспечивал 90%+ процентов
фильтрации, но "на войне как на войне", и поскольку его базовый набор
открыт, были найдены методы для их обхода и обмана (более или менее
удачные), и результативность SA (даже с недавно добавленным байесом) не
настолько велика, чтобы можно было считать единственной панацеей, но и не
настролько мала, чтобы совсем выкидывать

Мне _лениво_ (честно признаю, лениво, и ничего более) доставать данные
по закрытым месяцам, хотя они у меня с ноября 2002 года где-то...
поэтому дам цифры только по нынешнему марту
(рули SA творчески переработаны и дополнены своими рулями и чужими
контрибами)

Пропущено -  5'660
                  из них более поздний DNSBL-check выдернул 243
                  вручную отмечены как спам                 105
Поймано SA - 1'736
                  из них _только_ при помощи                    ~BAYES_99 - 34
                  изменение score BAYES_90 за предел выше спам отсечки
                  принципиально картину не изменит              ~BAYES_9  - 55

Относить оцененные ниже 90% к спаму - это получить гарантированный
значительный процент FP

Вот такие цифры. Даже 80% процентов эффективности стоят того, чтобы работать и
использовать, думаю...
-- 
Best regards,
 Alexander Leschinsky





Подробная информация о списке рассылки community