[sisyphus] I: new package (amavisd-new)

Чт Янв 15 14:58:34 MSK 2004

В сообщении от Среда 14 Январь 2004 17:16 Victor Forsyuk написал:

> > > Если даже этого не делать, spamassassin самообучается на проходящих
> > > письмах.
> > при этом постоянно увеличивая количество ошибок?
> Не могли бы Вы пояснить, каким образом пришли к такому выводу?
> Поскольку происходит самообучение, то процент ошибок благодаря
> росту объема байесовской базы уменьшается.

Логика такая - в процессе работы он будет неизбежно ошибаться. Допустим, он 
принял хорошее письмо за спам. И самообучил текст этого письма в базу 
спамовых писем.
Тогда следующее хорошее письмо, похожее на первое, будет вероятнее принято за 
спам. Третье еще более вероятно, и так далее. То есть количество ошибок 
растет.
И наоборот - допустим, он пропустил явный спам, и самообучил его в базу 
хороших писем. Тогда со временем (накапливая в базе ошибки) он будет 
пропускать все больше похожего спама.

> > есть ли у него tri-state filtering (оценка как spam/ham/unsure) ?
> Здесь эти понятия не совсем применимы.

Речь о том, чтобы выставить порог не только для определения спама, а еще и 
определения хорошего письма. Например, spamcity: 0.95  и 0.10
(в spamassasin баллы не процентные, насколько я помнимаю).

Тогда в середине будут unsure, и на них автообучения не будет. обучение будет 
только на явном спаме (в спам-базу) и на явно хороших письмах (в базу хороших 
писем). есть такое?

-- 
Mike