[sisyphus] I: new package (amavisd-new)
Victor Forsyuk
=?iso-8859-1?q?victor_=CE=C1_ksi-linux=2Ecom?=
Пт Янв 16 18:12:03 MSK 2004
On Thu, Jan 15, 2004 at 03:58:34PM +0400, Mike Lykov wrote:
> В сообщении от Среда 14 Январь 2004 17:16 Victor Forsyuk написал:
>
> > > > Если даже этого не делать, spamassassin самообучается на проходящих
> > > > письмах.
> > > при этом постоянно увеличивая количество ошибок?
> > Не могли бы Вы пояснить, каким образом пришли к такому выводу?
> > Поскольку происходит самообучение, то процент ошибок благодаря
> > росту объема байесовской базы уменьшается.
>
> Логика такая - в процессе работы он будет неизбежно ошибаться. Допустим, он
> принял хорошее письмо за спам. И самообучил текст этого письма в базу
> спамовых писем.
Это при дефолтном bayes_auto_learn_threshold_spam равном 12.0 ?
Чтобы получить 12 спам-баллов нужно еще постараться, не всякий
спамер в состоянии так отличиться. :)
> Тогда следующее хорошее письмо, похожее на первое, будет вероятнее принято за
> спам. Третье еще более вероятно, и так далее. То есть количество ошибок
> растет.
Нет. Вы теоритизируете, даже не посмотрев на то, как это делается.
Самообучение по спаму происходит на пороге, _намного_ превышающем
практические пороги отсеивания спама.
> И наоборот - допустим, он пропустил явный спам, и самообучил его в базу
> хороших писем. Тогда со временем (накапливая в базе ошибки) он будет
> пропускать все больше похожего спама.
Эта ситуация, в отличие от вышеописанной обратной, на практике возможна.
Да, можно разослать "явный" спам, который наберет меньше 0.1 спам-балла.
Но это значит, что в нем не должно быть _ни одной_ спамерской уловки, он
должен придти с релеев, не засветившихся в блоклистах. Даже вполне
невинный факт "HTML included in message" даст письму те самые 0.1
спам-балла! :)
> > > есть ли у него tri-state filtering (оценка как spam/ham/unsure) ?
> > Здесь эти понятия не совсем применимы.
>
> Речь о том, чтобы выставить порог не только для определения спама, а еще и
> определения хорошего письма. Например, spamcity: 0.95 и 0.10
> (в spamassasin баллы не процентные, насколько я помнимаю).
Я вынужден повторять то, что уже писал раньше. Байесовские классификаторы
не имеют других источников оценки спамовости письма кроме вычисленной
по байес-алгоритму spamicity, spamassassin - имеет.
Решение о спамовости письма в случае ассассина принимается при превышении
набранных письмом баллов установленного администратором порога. Благодаря
этому даже менее совершенный байес-алгоритм на практике не приведет к
заметному ухудшению показателей. Ну, из-за попадания вычисленной ассассином
spamicity в другой процентный диапазон будет начислено на спам-балл
меньше - не критично, как правило...
> Тогда в середине будут unsure, и на них автообучения не будет. обучение будет
> только на явном спаме (в спам-базу) и на явно хороших письмах (в базу хороших
> писем). есть такое?
Mike, похоже мы начинаем ходить по кругу. :)
Подробная информация о списке рассылки Sisyphus