Spider Trap – die Falle für böse Bots

Thomas Zeithaml ein nettes Tool gebastelt auf das wohl viele Webmaster schon lange gewartet haben, gerade wohl auch diejnigen die aufgrund von Duplicate Content durch Spambots verursacht ihre Seiten nur noch auf den hinteren Rängen wiederfinden.

Spidertrap ist eine Falle für genau diese bösen Bots / Spambots, die Installation und Anwendung ist denkbar einfach. Man installiert spider-trap auf dem Server und setzt einen Link von der Seite, z.B. in Form einer Grafik wie hier oben rechts zu sehen, mit einer 1px Grafik, oder mit einem normalen Textlink oder …

Dieser Link verweist nun in das Verzeichnis /spider-trap/ auf dem Server, jetzt verbietet man mithilfe der robots.txt den entsprechenden Bots den Link zu folgen, also z.B.

User-agent: *
Disallow: /spider-trap

Also in diesem Fall hat kein Bot diesen Link zu verfolgen, gute Bots halten sich an die robots.txt, böse Bots halten sich meist nicht an die robots.txt und werden diesen Link verfolgen und landen im Verzeichnis /spider-trap/, sind also in die Falle getappt. Ist der Bot in die Falle gegangen, schreibt Spider Trap ein deny from in die .htaccess und der Bot ist für die komplette Seite gesperrt. Um dort wieder rauszukommen müsste er ein Wort auf der spider-trap/index.php eingeben, bei uns wäre das Wort mensch. Klickt also ein Besucher auf den Link, kann er seinen deny from durch Eingabe des vogegebenen Wortes entfernen und hat somit wieder vollen Zugriff auf die Seite, ein Bot kann dieses natürlich nicht und bleibt somit gesperrt.

Auch Google hält sich ja manchmal nicht an die robots.txt, um den Googlebot nicht ausversehen einzufangen, gibt es eine Whitelist in der man über den Useragent definieren kann wer nie eingefangen werden darf, also Googlebot, slurp usw. Über die Whitelist könnte man auch nur die gewünschten Bots zulassen und alle anderen komplett in die Falle tappen lassen. Will man z.B. nur den Googlebot zulassen, könnte man das so machen.

robots.txt:

User-agent: *
Disallow:

also alle „dürfen“ in die Falle

und Whitelist mit dem Eintrag: Googlebot, das wäre dann die ganz harte Nummer 🙂 Hier gibt es noch wesentlich mehr möglichkeiten, welche auf Spider Trap genauer beschrieben werden.

Wir haben das die letzten Tage mal ausgiebig getestet, so sind z.B. auf no-nofollow.de nach nur kurzer Zeit knapp 20 böse Bots in die Falle gegangen, die Kollegen kamen aus allen Ländern. China, Korea, Rußland, USA usw. und hatten sicherlich nichts gutes vor. Wenn man möchte kann man sich auch automatisch per mail informieren lassen wenn jemand in die Falle geht.

Fazit: Ein Super Tool, einfach zu installieren, kostenlos!

Mehr dazu, wie Download, Installationsanleitung, Funktionsweise sowie eine Möglichkeit böse Bots zu melden und bereits gemeldete in einer Übersicht zu sehen gibts direkt auf Spider Trap

Viel Spaß beim Spambot fangen 🙂

Wer es mal ausprobieren möchte, der klicke hier auf die Spinne.
Böse Bots hier entlang

Kommentare

19 Antworten zu „Spider Trap – die Falle für böse Bots“

  1. Tim

    Endgeiiilll, wenn ich das mal so sagen darf hier, dem werd ich mich morgen mal annehmen, hab nämlich gerade 2 Seiten wegen so einem sch… verloren.

    Die jag ich da alle rein, Google darf, rest geht schlafen 🙂

  2. Charmed Fan

    Nettes tool, gibt es das ganze auch mit captcha?

  3. Mario

    ne noch nicht, könnte Thomas aber bestimmt noch einbauen denke ich mal

  4. Astoi

    Wow, da hat sich aber einer mal richtig Mühe gemacht *den Hut zieh* und vielen dank für die tolle Zusammenfassung und Erklärung hier!

  5. Karsten

    Danke Thomas und Mario, bin begeistert! Schützt das Tool auch gegen automatische Mülleintragungen im Weblog?

    Gruß
    Karsten

  6. Mario

    Gegen Kommentarspam wird dir das hier sicher helfen

  7. Tom

    Erstmal danke für euer Lob. Sind ein paar Nächte und Bierkisten dafür ins Land gegangen.

    Captcha ist in der nächsten Version geplant !

    Was Mario noch vergessen hat. Ich habe extra ein Forum eingerichtet und würde mich über einige Verbesserungsvorschläge, Bugfixes usw sehr freuen

    Gruß Thomas

  8. Spider-Trap für böse Bots – Faris SEO Blog

    […] Gestern habe ich bei Mario den Beitrag über die Spider-Trap gelesen. Diese kleine Falle fängt Spider ein, die sich nicht an die robots.txt halten und in verbotenen Verzeichnissen spidern wollen. Die IP dieser fiesen Robots wird sogleich per .htaccess gesperrt. Damit dürfte man so einige Content-Grabber von ihrem Tun abhalten können. […]

  9. bull

    Ideen klauen kann der Tom ganz gut, chapeau!

  10. Tom

    Hallo Jan,
    die Idee dazu entstammt hier:
    http://www.omtalk.com/suchmaschinenoptimierung-allgemein/32-robots-txt.html

    Such mal nach „Bot-Trap“. Es sind also schon mehrere auf die Idee gekommen. Aber es hat halt noch keiner in dem Umfang realisiert. Weiß jetzt also nicht genau warum du sauer bist.
    Wenn du mein Emails beantworten würdest wäre das ja alles kein Problem.
    Da ich es auch kostenlos zum Download anbiete und kein Adsense oder sonst was drauf habe solltest du auch erkennen dass es mir dabei um die Sache geht und kein kommerzieller Hintergedanke eine Rolle spielt.

    Gruß Thomas

  11. Martin

    geniales Tool, gleich 7 Stück eingefangen heute 🙂

  12. Markus

    Gibt es nicht auch Google-Bots, die „verdeckt ermitteln“ um Cloaking-Seiten aufzuspüren? Hab ich nur vor längerer Zeit mal gelesen, aber mich nie näher damit beschäftigt weil es für mich nicht relevant ist).

    Wenn dem so ist, könnte es nicht fatale Folgen haben, wenn so ein verdeckter Googlebot in die Falle geht?

  13. bull

    Richtig, in dem omtalk-Thread wird auf disallow.de verwiesen, von wo konzeptionell fast alles stammt was man jetzt bei spider-trap „bewundern“ kann. Warum ich von solchen Leuten auch noch e-mails beantworten soll, ist mir schleierhaft.

  14. Tom

    @bull
    Naja, Post Nr. 6 von ThomasB erklärt wie eine Spider Trap funktioniert. Das kann man also auch ohne Kenntnis von disallow umsetzen.

    Dein „erster“ Entwurf auf Disallow ist vom 21.10.2005.
    Die erste Version von spider-trap (die ich dir in der EMail geschrieben habe) ist vom 5.Feb 2005.

    Die Grund-Idee für eine Spider Trap wurde schon Anfang 2002 veröffentlicht. Findet man auch unter meinen Links auf meiner Seite.

    Jetzt ist das ganze halt auch für den Webmaster einsetzbar ohne das einer das programmieren muss.

    Es ist auf jeden Fall in meinem Interesse Unstritigkeiten mit dir beizulegen weil wir beide für die gleiche Sache kämpfen.
    Wenn du auch Interesse daran hast die Sache aus der Welt zu schaffen, an mir soll es nicht liegen.

  15. Hertz-lich gebloggt…

    Testlauf Spider-Trap – don´t click!!!

    Ich habe heute Spider-Trap installiert – ein Tool, das sehr viel Gutes verspricht! Leider läuft noch nicht alles rund, denn die Sicherheits-Abfrage wird nicht korrekt in ein PNG umgewandelt und ist damit nicht lesbar – vermutlich ein Server-Fehler&#8…

  16. Jan Piotrowski

    > Dein “erster” Entwurf auf Disallow ist vom 21.10.2005.

    Dieser Entwurf ist auf meinem Blog gepostet worden. Wir haben zwar den selben Vornamen, sind aber immer noch verschiedene Personen. Nur damit da nichts durcheinander gerät.

  17. Disallowblog

    Disallow ist tot.

    Das war’s, hiermit beende ich das Projekt Disallow.
    Disallow war eine gute Idee. Natürlich ist es ein gutes Anliegen die eigenen Webseiten vor Contentgrabbern und Pseudosuchmaschinen zu schützen. Nur lohnt sich die investierte Zeit hi…

  18. Paul

    nach der falle für meinen blog, jetzt auch für die ganze seite 🙂 thx

  19. Yury

    Ich habe beim spider-trap leider das Problemm das ich den google-bot da manuell raus „befreien“ muss.

    Dieser tappt beinahe täglich bei mir da rein 🙁

    Also auf jeden Fall Email-Benachrichtigung aktivieren und den whoise des „Gefangenen“ checken.

    Noch etwas was evtl. interessant sein könnte: seit die Falle direkt am Anfang des Quelltextes der Seite ist, tappen da mehr Bots rein als am Anfang wo diese vom /body stand