Spider Trap – die Falle für böse Bots

Verfasst von

Thomas Zeithaml ein nettes Tool gebastelt auf das wohl viele Webmaster schon lange gewartet haben, gerade wohl auch diejnigen die aufgrund von Duplicate Content durch Spambots verursacht ihre Seiten nur noch auf den hinteren Rängen wiederfinden.

Spidertrap ist eine Falle für genau diese bösen Bots / Spambots, die Installation und Anwendung ist denkbar einfach. Man installiert spider-trap auf dem Server und setzt einen Link von der Seite, z.B. in Form einer Grafik wie hier oben rechts zu sehen, mit einer 1px Grafik, oder mit einem normalen Textlink oder …

Dieser Link verweist nun in das Verzeichnis /spider-trap/ auf dem Server, jetzt verbietet man mithilfe der robots.txt den entsprechenden Bots den Link zu folgen, also z.B.
User-agent: * Disallow: /spider-trap

Also in diesem Fall hat kein Bot diesen Link zu verfolgen, gute Bots halten sich an die robots.txt, böse Bots halten sich meist nicht an die robots.txt und werden diesen Link verfolgen und landen im Verzeichnis /spider-trap/, sind also in die Falle getappt. Ist der Bot in die Falle gegangen, schreibt Spider Trap ein deny from in die .htaccess und der Bot ist für die komplette Seite gesperrt. Um dort wieder rauszukommen müsste er ein Wort auf der spider-trap/index.php eingeben, bei uns wäre das Wort mensch. Klickt also ein Besucher auf den Link, kann er seinen deny from durch Eingabe des vogegebenen Wortes entfernen und hat somit wieder vollen Zugriff auf die Seite, ein Bot kann dieses natürlich nicht und bleibt somit gesperrt.

Auch Google hält sich ja manchmal nicht an die robots.txt, um den Googlebot nicht ausversehen einzufangen, gibt es eine Whitelist in der man über den Useragent definieren kann wer nie eingefangen werden darf, also Googlebot, slurp usw. Über die Whitelist könnte man auch nur die gewünschten Bots zulassen und alle anderen komplett in die Falle tappen lassen. Will man z.B. nur den Googlebot zulassen, könnte man das so machen.

robots.txt:
User-agent: * Disallow:

also alle „dürfen“ in die Falle

und Whitelist mit dem Eintrag: Googlebot, das wäre dann die ganz harte Nummer 🙂 Hier gibt es noch wesentlich mehr möglichkeiten, welche auf Spider Trap genauer beschrieben werden.

Wir haben das die letzten Tage mal ausgiebig getestet, so sind z.B. auf no-nofollow.de nach nur kurzer Zeit knapp 20 böse Bots in die Falle gegangen, die Kollegen kamen aus allen Ländern. China, Korea, Rußland, USA usw. und hatten sicherlich nichts gutes vor. Wenn man möchte kann man sich auch automatisch per mail informieren lassen wenn jemand in die Falle geht.

Fazit: Ein Super Tool, einfach zu installieren, kostenlos!

Mehr dazu, wie Download, Installationsanleitung, Funktionsweise sowie eine Möglichkeit böse Bots zu melden und bereits gemeldete in einer Übersicht zu sehen gibts direkt auf Spider Trap

Viel Spaß beim Spambot fangen 🙂

Wer es mal ausprobieren möchte, der klicke hier auf die Spinne.

Kommentare

19 Antworten zu „Spider Trap – die Falle für böse Bots“

13. Januar 2006
Tim
Endgeiiilll, wenn ich das mal so sagen darf hier, dem werd ich mich morgen mal annehmen, hab nämlich gerade 2 Seiten wegen so einem sch… verloren.
Die jag ich da alle rein, Google darf, rest geht schlafen 🙂
13. Januar 2006
Charmed Fan
Nettes tool, gibt es das ganze auch mit captcha?
13. Januar 2006
Mario
ne noch nicht, könnte Thomas aber bestimmt noch einbauen denke ich mal
13. Januar 2006
Astoi
Wow, da hat sich aber einer mal richtig Mühe gemacht *den Hut zieh* und vielen dank für die tolle Zusammenfassung und Erklärung hier!
13. Januar 2006
Karsten
Danke Thomas und Mario, bin begeistert! Schützt das Tool auch gegen automatische Mülleintragungen im Weblog?
Gruß
Karsten
13. Januar 2006
Mario
Gegen Kommentarspam wird dir das hier sicher helfen
14. Januar 2006
Tom
Erstmal danke für euer Lob. Sind ein paar Nächte und Bierkisten dafür ins Land gegangen.
Captcha ist in der nächsten Version geplant !
Was Mario noch vergessen hat. Ich habe extra ein Forum eingerichtet und würde mich über einige Verbesserungsvorschläge, Bugfixes usw sehr freuen
Gruß Thomas
14. Januar 2006
Spider-Trap für böse Bots – Faris SEO Blog
[…] Gestern habe ich bei Mario den Beitrag über die Spider-Trap gelesen. Diese kleine Falle fängt Spider ein, die sich nicht an die robots.txt halten und in verbotenen Verzeichnissen spidern wollen. Die IP dieser fiesen Robots wird sogleich per .htaccess gesperrt. Damit dürfte man so einige Content-Grabber von ihrem Tun abhalten können. […]
14. Januar 2006
bull
Ideen klauen kann der Tom ganz gut, chapeau!
14. Januar 2006
Tom
Hallo Jan,
die Idee dazu entstammt hier:
http://www.omtalk.com/suchmaschinenoptimierung-allgemein/32-robots-txt.html
Such mal nach „Bot-Trap“. Es sind also schon mehrere auf die Idee gekommen. Aber es hat halt noch keiner in dem Umfang realisiert. Weiß jetzt also nicht genau warum du sauer bist.
Wenn du mein Emails beantworten würdest wäre das ja alles kein Problem.
Da ich es auch kostenlos zum Download anbiete und kein Adsense oder sonst was drauf habe solltest du auch erkennen dass es mir dabei um die Sache geht und kein kommerzieller Hintergedanke eine Rolle spielt.
Gruß Thomas
14. Januar 2006
Martin
geniales Tool, gleich 7 Stück eingefangen heute 🙂
16. Januar 2006
Markus
Gibt es nicht auch Google-Bots, die „verdeckt ermitteln“ um Cloaking-Seiten aufzuspüren? Hab ich nur vor längerer Zeit mal gelesen, aber mich nie näher damit beschäftigt weil es für mich nicht relevant ist).
Wenn dem so ist, könnte es nicht fatale Folgen haben, wenn so ein verdeckter Googlebot in die Falle geht?
19. Januar 2006
bull
Richtig, in dem omtalk-Thread wird auf disallow.de verwiesen, von wo konzeptionell fast alles stammt was man jetzt bei spider-trap „bewundern“ kann. Warum ich von solchen Leuten auch noch e-mails beantworten soll, ist mir schleierhaft.
19. Januar 2006
Tom
@bull
Naja, Post Nr. 6 von ThomasB erklärt wie eine Spider Trap funktioniert. Das kann man also auch ohne Kenntnis von disallow umsetzen.
Dein „erster“ Entwurf auf Disallow ist vom 21.10.2005.
Die erste Version von spider-trap (die ich dir in der EMail geschrieben habe) ist vom 5.Feb 2005.
Die Grund-Idee für eine Spider Trap wurde schon Anfang 2002 veröffentlicht. Findet man auch unter meinen Links auf meiner Seite.
Jetzt ist das ganze halt auch für den Webmaster einsetzbar ohne das einer das programmieren muss.
Es ist auf jeden Fall in meinem Interesse Unstritigkeiten mit dir beizulegen weil wir beide für die gleiche Sache kämpfen.
Wenn du auch Interesse daran hast die Sache aus der Welt zu schaffen, an mir soll es nicht liegen.
18. März 2006
Hertz-lich gebloggt…
Testlauf Spider-Trap – don´t click!!!
Ich habe heute Spider-Trap installiert – ein Tool, das sehr viel Gutes verspricht! Leider läuft noch nicht alles rund, denn die Sicherheits-Abfrage wird nicht korrekt in ein PNG umgewandelt und ist damit nicht lesbar – vermutlich ein Server-Fehler&#8…
5. Juli 2006
Jan Piotrowski
> Dein “erster” Entwurf auf Disallow ist vom 21.10.2005.
Dieser Entwurf ist auf meinem Blog gepostet worden. Wir haben zwar den selben Vornamen, sind aber immer noch verschiedene Personen. Nur damit da nichts durcheinander gerät.
5. Juli 2006
Disallowblog
Disallow ist tot.
Das war’s, hiermit beende ich das Projekt Disallow.
Disallow war eine gute Idee. Natürlich ist es ein gutes Anliegen die eigenen Webseiten vor Contentgrabbern und Pseudosuchmaschinen zu schützen. Nur lohnt sich die investierte Zeit hi…
22. Januar 2007
Paul
nach der falle für meinen blog, jetzt auch für die ganze seite 🙂 thx
7. Dezember 2007
Yury
Ich habe beim spider-trap leider das Problemm das ich den google-bot da manuell raus „befreien“ muss.
Dieser tappt beinahe täglich bei mir da rein 🙁
Also auf jeden Fall Email-Benachrichtigung aktivieren und den whoise des „Gefangenen“ checken.
Noch etwas was evtl. interessant sein könnte: seit die Falle direkt am Anfang des Quelltextes der Seite ist, tappen da mehr Bots rein als am Anfang wo diese vom /body stand

Spider Trap – die Falle für böse Bots

Kommentare

19 Antworten zu „Spider Trap – die Falle für böse Bots“

Weitere Beiträge

PremiumData

Buzzlog – wissen was gesucht wird

YouTube SEO: Chapters und Key Moments

BVDW SEO-Fachkräftezertifikat: Erfahrung, Kritik und Fazit

Spider Trap – die Falle für böse Bots

Verwandte Beiträge

Kommentare

19 Antworten zu „Spider Trap – die Falle für böse Bots“

Weitere Beiträge

PremiumData

Buzzlog – wissen was gesucht wird

YouTube SEO: Chapters und Key Moments

BVDW SEO-Fachkräftezertifikat: Erfahrung, Kritik und Fazit