Google und die robots.txt – Experiment-

Viele Webmaster – zu denen auch ich gehöre – beklagen immer wieder das Google sich nicht an die robots.txt hält. Dazu habe ich mal ein paar kleine Versuche gemacht.

Will man das ein Verzeichnis namens „test“ nicht von Google gespidert wird, sollte man ja annehmen das eine robots.txt mit:

User-Agent: *
Disallow: /test

ausreicht umd den Googlebot am spidern zu hindern, dieses funktioniert aber irgendwie nur in ca. 70% aller Fälle. Hingegen hält sich Google zu 100% an die robots.txt wenn man den Googlebot genau spezifiziert, also:

User-Agent: Googlebot
Disallow: /test

Ich hab das ganze mehrfach hin und her probiert, mit alten Seiten und mit neuen Seiten, es scheint wirklich so, dass Google sich nicht immer an

User-Agent: *

hält, sondern nur dann zu 100% wenn er auch direkt angesprochen wird. Finde ich schon krass, denn Google selbst sagt was anderes und auch die robots.txt von Google beginnt mit: User-Agent: *

Das sicherste ist also wenn man die Einträge in der robots.txt doppelt, also einmal mit * und einmal mit Googlebot

    Mehr von unserem Blog:

    Zeige alle Beiträge