Ultimate Frisbee im ZDF

Posted by Ansgar Berhorn on Juli 17, 2007

Das ZDF hat Gestern einen kurzes Porträt über Ultimate Frisbee in den Mittagsnachrichten gebracht.
Also wer schon immer mal einen besseren Eindruck von der Sportart bekommen wollte, der findet den Film in der ZDF-Mediathek:

http://www.zdf.de/ZDFmediathek/inhalt/3/0,4070,5568035-5,00.html

Kollaborative Spam-Filter im Einsatz

Posted by Ansgar Berhorn on Juni 03, 2007

Hier einige Statistiken von kollaborativen Hash-Filtern von meinem
System, die ich aus den syslog gefiltert habe.

IXHASH und LOGINHASH basieren auf dem Hash-Filter des Heise-Verlags (siehe nixspam.org).
DCC bezieht sich auf das Distributed Checksum Clearinghouse

Mein System ist eher “klein”. Der Spamanteil liegt bei ca. 80%. Ca.
55% des Spams werden schon in der SMTP-Phase geblockt (Blacklists,
Surbl-Domains und Viren). Der Spamassassin, in dem die Hash-Filter
laufen, bekommt somit also “nur” noch 45% ab.

Zeitraum für die Statistiken ist Mai 2007

Anteile der im Grauzonen-Bereich (SA-Score <5):

47 DCC_CHECK
 3 LOGINHASH1
 3 IXHASH
 1 LOGINHASH2

Diese Zahlen sind mit Vorsicht zu genießen, da manchmal auch ein noch
schlecht trainierter Bayes-Filter nicht den Auschlag über die
5er-Schwelle gegeben hat.
Es handelt sich aber meistens um Massennewsletter, auf die DCC per
Definition drauf anschlägt. Ixhash hat z.B. auf einen
Apple-Newsletter angeschlagen.

Da wo es eindeutig war (SA-Score > 5), sah es im Mai wie folgt aus:

959 DCC_CHECK
746 LOGINHASH1
654 IXHASH
282 LOGINHASH2

In dem Zeitraum sind 3500 Spams hereingekommen.
Das macht also für Ixhash ca. 19%. Diese Zahl ist gar nicht so schlecht, da die Hash-Prüfsummen basieren, die spezifisch für den Spam sind, den die Heise-Redakteure erhalten.
Mit einem selbsttranierten Hash-Repository ließe sich sicher eine noch bessere Quote erreichen.

FuzzyOcr im Einsatz

Posted by Ansgar Berhorn on Mai 14, 2007

Seit einiger Zeit nimmt auf meinem Server die Anzahl der Spamemails im Grauzonen-Bereich zu. Das sind solche Spam-Emails, die zwar als Spam erkannt wurden, aber nicht ausreichend Punkte vom Spamassassin bekommen haben, um ungesehen wegsortiert zu werden.

Wenn man dann in den Ordner mit den Grauzonen-Emails schaut, stellt man fest, dass eigentlich alle Spams recht eindeutig aussehen. Die meisten fallen in zwei Kategorien:

  • Penny-Stock-Options (heise.de schrieb gestern darüber)
  • Spam-Botschaft nur in einem Bild

Wenn erstere von einem frisch infizierten Spam-Bot kommen und außer den Aktientitel keine einschlägigen Wörter enthalten, rutschen diese Emails durch. Es sind nunmal Penny-Stocks…

Zweitere kann man mit FuzzyOCR bekämpfen. Auf Emails mit Bildern wird Texterkennung angewendet und wenn einschlägige Wörter gefunden werden, wird die Email als Spam gewertet.

Das funktioniert erstaunlich gut und nicht merklich mehr Zeit für die Erkennung durch den Spamassassin.
Ich habe einen Test mit 1 einem selbstgebauten Bild und 11 Bildern aus meinem Grauzonen-Ordner gemacht.
Von den 12 Bildern wurden nur zwei von FuzzyOCR nicht erkannt.

Hier sind die Bilder mit den entsprechenden Ergebnissen.











Wenn man die Zeiten betrachtet, fallen nur zwei mit mehr als 2 Sekunden heraus. Zu dem Zeitpunkt hatte das System allerdings viel zu tun. Der Test fand auf einer dedizierten Linux-Maschine mit Gentoo-Linux und fuzzyocr-2.3b statt. Es handelt sich um einen 2,4Ghz Celeron.

Einziges Problem scheint zu sein, dass viele Spam-Bilder so versteckt verpackt sind, dass sie gar nicht erst zur Bewertung herangezogen werden. In meinen Tests habe ich die Bilder sauber angehängt und nicht die Orginal-Spams verwendet.

Diskussion zum Thema im NiX-Spam-Forum bei heise:
Erfahrungen mit FuzzyOCR?

Tom’s Tourney 2007 in Brügge

Posted by Ansgar Berhorn on Mai 02, 2007

Sommer, Sonne, Sonnenbrand, richtig gutes Ultimate und richtig viel Spaß dabei gehabt.
Einige Fotos aus Belgien:




Die Turnierhomepage mit weiteren Infos und den Platzierungen:
www.tomstourney.be

Bericht über das JIM-Semester in Platteville

Posted by Ansgar Berhorn on April 26, 2007

Auf Wunsch der Studiengangskoordinatoren des JIM-Programms habe ich einen 5-seitigen Bericht über mein Semester in Platteville/Wisconsin geschrieben. Im März ist eine gekürzte Fassung in der i-News, der Zeitung des Fachbereichs Informatik (Hochschule Darmstadt), erschienen.

Hier ist nun die vollständige Fassung, die auch auf die Vorbereitungen (Visa, etc.) eingeht: