[sisyphus] I: new package (amavisd-new)

Пт Янв 16 18:12:03 MSK 2004

On Thu, Jan 15, 2004 at 03:58:34PM +0400, Mike Lykov wrote:
> В сообщении от Среда 14 Январь 2004 17:16 Victor Forsyuk написал:
> 
> > > > Если даже этого не делать, spamassassin самообучается на проходящих
> > > > письмах.
> > > при этом постоянно увеличивая количество ошибок?
> > Не могли бы Вы пояснить, каким образом пришли к такому выводу?
> > Поскольку происходит самообучение, то процент ошибок благодаря
> > росту объема байесовской базы уменьшается.
> 
> Логика такая - в процессе работы он будет неизбежно ошибаться. Допустим, он 
> принял хорошее письмо за спам. И самообучил текст этого письма в базу 
> спамовых писем.

Это при дефолтном bayes_auto_learn_threshold_spam равном 12.0 ?
Чтобы получить 12 спам-баллов нужно еще постараться, не всякий
спамер в состоянии так отличиться. :)

> Тогда следующее хорошее письмо, похожее на первое, будет вероятнее принято за 
> спам. Третье еще более вероятно, и так далее. То есть количество ошибок 
> растет.

Нет. Вы теоритизируете, даже не посмотрев на то, как это делается.
Самообучение по спаму происходит на пороге, _намного_ превышающем
практические пороги отсеивания спама.

> И наоборот - допустим, он пропустил явный спам, и самообучил его в базу 
> хороших писем. Тогда со временем (накапливая в базе ошибки) он будет 
> пропускать все больше похожего спама.

Эта ситуация, в отличие от вышеописанной обратной, на практике возможна.
Да, можно разослать "явный" спам, который наберет меньше 0.1 спам-балла.
Но это значит, что в нем не должно быть _ни одной_ спамерской уловки, он
должен придти с релеев, не засветившихся в блоклистах. Даже вполне
невинный факт "HTML included in message" даст письму те самые 0.1
спам-балла! :)

> > > есть ли у него tri-state filtering (оценка как spam/ham/unsure) ?
> > Здесь эти понятия не совсем применимы.
> 
> Речь о том, чтобы выставить порог не только для определения спама, а еще и 
> определения хорошего письма. Например, spamcity: 0.95  и 0.10
> (в spamassasin баллы не процентные, насколько я помнимаю).

Я вынужден повторять то, что уже писал раньше. Байесовские классификаторы
не имеют других источников оценки спамовости письма кроме вычисленной
по байес-алгоритму spamicity, spamassassin - имеет.

Решение о спамовости письма в случае ассассина принимается при превышении
набранных письмом баллов установленного администратором порога. Благодаря
этому даже менее совершенный байес-алгоритм на практике не приведет к
заметному ухудшению показателей. Ну, из-за попадания вычисленной ассассином
spamicity в другой процентный диапазон будет начислено на спам-балл
меньше - не критично, как правило...

> Тогда в середине будут unsure, и на них автообучения не будет. обучение будет 
> только на явном спаме (в спам-базу) и на явно хороших письмах (в базу хороших 
> писем). есть такое?

Mike, похоже мы начинаем ходить по кругу.  :)