Google und die robots.txt – Experiment-

Viele Webmaster – zu denen auch ich gehöre – beklagen immer wieder das Google sich nicht an die robots.txt hält. Dazu habe ich mal ein paar kleine Versuche gemacht.

Will man das ein Verzeichnis namens „test“ nicht von Google gespidert wird, sollte man ja annehmen das eine robots.txt mit:

User-Agent: *
Disallow: /test

ausreicht umd den Googlebot am spidern zu hindern, dieses funktioniert aber irgendwie nur in ca. 70% aller Fälle. Hingegen hält sich Google zu 100% an die robots.txt wenn man den Googlebot genau spezifiziert, also:

User-Agent: Googlebot
Disallow: /test

Ich hab das ganze mehrfach hin und her probiert, mit alten Seiten und mit neuen Seiten, es scheint wirklich so, dass Google sich nicht immer an

User-Agent: *

hält, sondern nur dann zu 100% wenn er auch direkt angesprochen wird. Finde ich schon krass, denn Google selbst sagt was anderes und auch die robots.txt von Google beginnt mit: User-Agent: *

Das sicherste ist also wenn man die Einträge in der robots.txt doppelt, also einmal mit * und einmal mit Googlebot

Kommentare

10 Antworten zu „Google und die robots.txt – Experiment-“

  1. Mario

    Mit ‚gespidert‘ meine ich das Google die Seiten im index aufnimmt (teilweise sogar mit cache) oder sie trotz Ausschluß per robots.txt über die Suche auffindbar macht.

    Ja dein Beitrag damals war glaube ich mit der Auslöser das mal genauer zu testen

  2. Markus

    DANKE!

    Damit hast du mich (bzw. meine Seite) möglicherweise gerettet 😉

    Ich hätte nie daran gedacht, das selbst so auszuprobieren, da es ja eigentlich völlig widersinnig ist. Manchmal folgt Google schon einer sehr merkwrdigen „Logik“…

  3. Suchmaschinen & Marketing & Seminar » Blog Archive » Links maskieren

    […] EDIT: Andere SEO und Webmaster haben anscheinend mit der robots.txt keine guten Erfahrungen gemacht. Mario hat dazu auf seinem Weblog die Ergebnisse seiner Experimente veröffentlicht. […]

  4. Maskieren von Links » Suchmaschinen News

    […] die ich nach neuesten Erkenntnissen noch mit: […]

  5. Stephan Hertz

    Man lernt nie aus – eine interessante Beobachtung Mario!

    Ich werde mal meine robots.txt darauf hin überprüfen….

    PS: Dieser Artikel ist mit 5 Kommentaren klar „unterbewertet“ ! 😉

  6. Das „a“ bei „User-agent“ muss übrigens klein geschrieben werden. Manche Spider sind da durchaus pingelig.

  7. Christoph’s Blog

    Verboten? Google hackt sich in geschützte Seiten

    Always deliver more than expected.
    Dieses Zitat scheint Google unter seinen Firmengrundsätzen dann vielleicht doch anders gemeint zu haben.

    Dennoch tauchen immer wieder Ergebnisseiten auf Google auf, die dort eigentlich nichts zu suchen haben. Beka

  8. Hollii @ 5-Finger-Blog

    Ich kann mich nur anschliessen. Seitdem ich Google direkt anspreche, tauchen nur noch Link auf, die ok sind.

  9. Tim

    Danke für den Tipp, habe mich gerade gewundert wieso Google Seiten trotz nur javascript & nofollow verlinkt und per robots.txt von der Indexierung ausgeschlossen, trotzdem fröhlich weiter in den Indexgepumpt hat 😉