Viele Webmaster – zu denen auch ich gehöre – beklagen immer wieder das Google sich nicht an die robots.txt hält. Dazu habe ich mal ein paar kleine Versuche gemacht.
Will man das ein Verzeichnis namens „test“ nicht von Google gespidert wird, sollte man ja annehmen das eine robots.txt mit:
User-Agent: *
Disallow: /test
ausreicht umd den Googlebot am spidern zu hindern, dieses funktioniert aber irgendwie nur in ca. 70% aller Fälle. Hingegen hält sich Google zu 100% an die robots.txt wenn man den Googlebot genau spezifiziert, also:
User-Agent: Googlebot
Disallow: /test
Ich hab das ganze mehrfach hin und her probiert, mit alten Seiten und mit neuen Seiten, es scheint wirklich so, dass Google sich nicht immer an
User-Agent: *
hält, sondern nur dann zu 100% wenn er auch direkt angesprochen wird. Finde ich schon krass, denn Google selbst sagt was anderes und auch die robots.txt von Google beginnt mit: User-Agent: *
Das sicherste ist also wenn man die Einträge in der robots.txt doppelt, also einmal mit * und einmal mit Googlebot
Verwandte Beiträge
- Google Mobile
Google Mobile ist mal wieder gut unterwegs in den Serps, wer sich fürs Schwimmen interessiert…
- Wildcards in Robots.txt
Neben Google unterstützt nun auch Yahoo eine Möglichkeit Wildcards in der Robots.txt anzugeben. Gerade zum…
- Xtra Google
Eine Google Suche mit allen Funktionen und grafisch aufgepeppt findet man bei xtragoogle.com. Einfach Suchwort…
- Aussperren dynamischer Seiten per robots.txt
Wenn man nicht möchte das dynamisch erzeugte Seiten im Google Index aufgenommen werden, kann man…
- Google Bug
Auch interessant: code Jerome’s Keywords funktioniert, Jerome’s Keywords code funktioniert nicht.
- Google Tipps für Blogger
Im deutschsprachigen Webmaster Zentrale Blog, gibt es heute eine Beitrag dazu wie man "sich Publikum…
- Simply Google
Mal ne nette Übersicht aller Google Dienste auf einer Seite, bei durchsuchbaren Diensten gleich mit…
- Google down
Vielleicht lesen hier ja noch einige bevor sie mich per ICQ oder Skype fragen (das…