[sisyphus] spamarchiv

Victor Forsyuk =?iso-8859-1?q?victor_=CE=C1_ksi-linux=2Ecom?=
Вт Янв 20 16:39:26 MSK 2004


On Tue, Jan 20, 2004 at 03:34:55PM +0300, Sergey Degtyaryov wrote:
> >>>я решал это просто - всю входящую почту форвардил себе, разбирал ручками
> >>>по папкам и каждый вечер скармливал spamassassin'у
> >>
> >>это не подходит, если поток писем - штук 100-200 в час (или больше) ;)
> >>(допустим, это фильтр на сервере, а не для личного использования).
> >>
> >
> >
> >в принципе достаточно отобрать 200 spam, 200 ham, скормить их, а дальше 
> >пусть spamassassin сам учится
> >
> 
> У меня spamprobe доучился до единицы любому письму.

Если обучать его (равно как и любой другой байесовский классификатор)
_только_ на спаме, то это совершенно закономерный результат. ;)

В этом плане spamassassin корректен: он не запускает байесовские тесты
до тех пор, пока не наполнит обе базы до требуемого уровня.

> Луговский, как майнтайнер SpamOracle, советовал не переусердствовать 
> в скармливании спама, если я все правильно помню.
> Т.е. учить до определенного объема. Возможно, иногда переучивать.

Бррр... Или на помойку SpamOracle, или кто-то что-то не так понял.

По поводу переучивать. В каком-то смысле да, "переучивать" нужно. Только
ж не удалять старые базы и вновь скармливать коллекцию спама и нормальные
почтовые ящики. Какой смысл в таком инструментарии на возню с которым
времени уходит больше, чем на молчаливое удаление спама из пришедшей почты?

Что качается spamassassin, то он "переучивается" автоматически и постоянно -
удаляя из базы чрезмерно старые токены.




Подробная информация о списке рассылки Sisyphus