Kollaborative Spam-Filter im Einsatz

Posted by Ansgar Berhorn on Juni 03, 2007

Hier einige Statistiken von kollaborativen Hash-Filtern von meinem
System, die ich aus den syslog gefiltert habe.

IXHASH und LOGINHASH basieren auf dem Hash-Filter des Heise-Verlags (siehe nixspam.org).
DCC bezieht sich auf das Distributed Checksum Clearinghouse

Mein System ist eher “klein”. Der Spamanteil liegt bei ca. 80%. Ca.
55% des Spams werden schon in der SMTP-Phase geblockt (Blacklists,
Surbl-Domains und Viren). Der Spamassassin, in dem die Hash-Filter
laufen, bekommt somit also “nur” noch 45% ab.

Zeitraum für die Statistiken ist Mai 2007

Anteile der im Grauzonen-Bereich (SA-Score <5):

47 DCC_CHECK
 3 LOGINHASH1
 3 IXHASH
 1 LOGINHASH2

Diese Zahlen sind mit Vorsicht zu genießen, da manchmal auch ein noch
schlecht trainierter Bayes-Filter nicht den Auschlag über die
5er-Schwelle gegeben hat.
Es handelt sich aber meistens um Massennewsletter, auf die DCC per
Definition drauf anschlägt. Ixhash hat z.B. auf einen
Apple-Newsletter angeschlagen.

Da wo es eindeutig war (SA-Score > 5), sah es im Mai wie folgt aus:

959 DCC_CHECK
746 LOGINHASH1
654 IXHASH
282 LOGINHASH2

In dem Zeitraum sind 3500 Spams hereingekommen.
Das macht also für Ixhash ca. 19%. Diese Zahl ist gar nicht so schlecht, da die Hash-Prüfsummen basieren, die spezifisch für den Spam sind, den die Heise-Redakteure erhalten.
Mit einem selbsttranierten Hash-Repository ließe sich sicher eine noch bessere Quote erreichen.