Die XML-Sitemap listet alle Unterseiten einer Webseite auf – das hat den Vorteil, dass alle URLs mit nur einem Klick erreichbar sind. Man serviert die gesamten URLs Google auf dem Silbertablett, sehr suchmaschinen- und crawler-freundlich. Vor allem für große Webseiten ist die XML-Sitemap von Vorteil, da auch die „verstecktesten“ Dokumente relativ schnell indexiert werden können.
Was man allerdings nicht möchte ist, dass die XML-Sitemap selbst im Google-Index erscheint, zumal sie auch keinen wirklichen Mehrwert für den User liefert. Dies empfiehlt nun auch John Mueller:
Since this comes up from time to time — it's fine to use the x-robots-tag HTTP header with "noindex" for XML sitemap files. They don't need to be indexed to work as sitemap files, they're more like robots.txt files (made for machines) than like HTML pages (made for indexing). https://t.co/ehEcshrmxb
— ? John ? (@JohnMu) January 9, 2019
A sitemap file is not a web page, it doesn’t need to get indexed.
— ? John ? (@JohnMu) 10. Januar 2019
Laut Mueller ist es ratsam, die XML-Sitemap-Dateien per x-robots-tag auf „noindex“ zu setzen. Eine Sitemap muss nicht indexiert sein, um ordnungsgemäß zu funktionieren. Anders als HTML-Dateien, die für die Indexierung gedacht sind, sind Sitemaps vielmehr ähnlich wie robots.txt-Dateien: für Maschinen entwickelte Datei-Typen.
Weiter fragt Dan Kern in den Kommentaren, ob die im Dezember 2017 diskutierte Behandlung eines noindex-Attributes nicht als noindex-nofollow-Attribut gewertet wird. Das wäre fatal, da die Sitemap ja gecrawlt werden soll. Daurafhin antwortet Mueller kühl: eine Sitemap ist keine Webseite, sie braucht nicht indexiert zu werden.