Mit dem Meta Robots Tag werden Indexierungs- und Bereitstellungsregeln für eine Webseite festgelegt. Vor allem, ob sie von Suchmaschinen indexiert werden darf. Es wird im Head-Bereich vom HTML Code angegeben.
Das Meta Robots Tag wird für eine Seite definiert. Jede crawlbare Seite kann individuelle Indexierungs- und Bereitstellungsregeln besitzen. Wird kein Meta Robots Tag verwendet, dann interpretieren User-agents diese Seite als index,follow (darf indexieren und den Verlinkungen im HTML Code folgen).
Inhaltsverzeichnis
Meta Robots Tag verwenden
Das Meta Robots Tag in diesem Beispiel verbietet allen User-agents die Seite zu indexieren:
1 2 3 4 5 6 7 |
<html> <head> <meta name="robots" content="noindex" /> (…) </head> <body>Sichtbarer Bereich der Seite</body> </html> |
Sind Regeln für ausgewählte User-agents notwendig, wird für jeden User-agent eine Regel im HTML-Head notiert. In diesem Beispiel dürfen alle Bots die Seite indexieren, der Googlebot und der Googlebot-Image dürfen die Seite nicht indexieren:
1 2 |
<meta name="googlebot" content="noindex" /> <meta name="googlebot-image" content="noindex" /> |
Indexierungs- und Bereitstellungsregeln
Für content können eine oder mehrere Regeln für den User-agent notiert werden. Sie dürfen sich nicht gegenseitig ausschließen. Die Verwendung von index und noindex darf nicht für die selbe Seite erfolgen. Das gilt auch für follow und nofollow.
Regel | Erklärung |
all | Es bestehen keine Einschränkungen. |
index | Die Seite darf in den Suchergebnissen angezeigt und der Link „im Cache gespeichert“ angezeigt werden. |
noindex | Die Seite darf nicht in den Suchergebnissen angezeigt und kein Link „im Cache gespeichert“ angezeigt werden. |
follow | Der Crawler darf den Links auf der Seite folgen. |
nofollow | Der Crawler darf den Links auf der Seite nicht folgen. |
none | Entspricht den Regeln: „noindex,follow“. |
noarchive | Es darf kein Link „im Cache gespeichert“ in den Suchergebnissen erscheinen. |
nosnippet | Es darf kein Snippet für diese Seite in den Suchergebnissen erscheinen. |
noodp | Es dürfen keine Meta Informationen aus dem Open Directory Project dieser Seite angezeigt werden. Das ODP wurde 2017 geschlossen. |
notranslate | Es darf keine Übersetzung dieser Seite in den Suchergebnissen erscheinen. |
noimageindex | Es dürfen keiner Bilder dieser Seite indexiert werden. |
unavailable_after: [RFC-850 date/time] | Diese Seite darf nach dem angegebenen Datum bzw. der angegebenen Uhrzeit nicht mehr in den Suchergebnissen angezeigt werden. Das Datum bzw. die Uhrzeit muss im RFC 850-Format angegeben werden. |
Werden keine Angaben gemacht, gelten keine Indexierungseinschränkungen für Suchmaschinen.
Verwendung in der Suchmaschinenoptimierung
Das Meta Robots Tag ist in der Suchmaschinenoptimierung eine wichtige SEO-Maßnahme zur Steuerung der Indexierung. Häufig werden folgende Regeln verwendet:
Crawler dürfen die Seite indexieren und allen Links folgen
1 |
<meta name="robots" content="index,follow" /> |
Crawler dürfen die Seite nicht indexieren aber allen Links folgen
1 |
<meta name="robots" content="noindex,follow" /> |
Crawler dürfen die Seite indexieren aber keinen Links folgen
1 |
<meta name="robots" content="index,nofollow" /> |
Crawler dürfen die Seite nicht indexieren und keinen Links folgen
1 |
<meta name="robots" content="noindex,nofollow" /> |
Noindex und Canonical Tag
John Müller von Google informierte Ende 2021 in einem Google SEO office-hours hangout (Quelle): Auch die Kombination von einem Canonical Tag und noindex ist möglich. Diese Option bietet sich zum Beispiel an, wenn Backlinks auf eine Seite verlinken, die nicht indexiert werden sollen und für die man eine andere interne Seite bevorzugt. Diese Kombination ist zwar exotisch, kann aber bei Bedarf verwendet werden. Mit dem Chrome Browser-Plugin SEO META IN 1 CLICK (Bild links) können diese Daten geprüft werden.
Meta Robots Tag versus robots.txt
Häufig liegt ein Missverständnis zwischen der robots.txt-Datei und dem Meta Robots Tag vor: Anweisungen in der robots.txt-Datei legen fest, welche Ressourcen Suchmaschinen und Scraper verarbeiten bzw. crawlen dürfen. Dagegen weist das Meta Robots Tag an, ob Crawler eine Seite indexieren und den Links im HTML-Code folgen dürfen. Wird eine Seite durch eine robots.txt-Anweisung von der Verarbeitung ausgeschlossen, sollte die Regel noindex festgelegt werden.
XML Sitemap und noindex
In einer XML Sitemap sollten nur indexierbare kanonische URL protokolliert werden. Diese URLs werden bevorzugt gecrawlt. Deshalb dürfen keine URLs in Sitemaps eingefügt werden, die noindex besitzen. (noindex führt dazu, dass eine Seite nicht indexiert werden darf.)
Meta Robots Tag und X-Robots-Tag
Die Regeln für eine Seite werden durch das Meta Robots Tag oder durch das X-Robots-Tag angegeben. Nicht selten werden widersprüchliche Daten hinterlegt, was zu Problemen führen kann. Ob ein X-Robots-Tag für eine Seite gesetzt wird, kann schnell mit dem Web Developer-Plugin (Chrome und Firefox) analysiert werden: „Information“ – „View Response Headers“