Was ist das “noindex”-Tag? (Seiten gezielt aus Google ausschließen)

Bei der Suchmaschinenoptimierung geht es nicht nur darum, welche Seiten bei Google ranken sollen, sondern auch darum, welche es *nicht* sollen. Das wichtigste Werkzeug, um Google mitzuteilen, eine Seite nicht in den Suchergebnissen anzuzeigen, ist die noindex-Anweisung.

Die schnelle Definition

“noindex” ist ein Wert, der innerhalb eines Meta-Robots-Tags (im HTML-<head>) oder eines X-Robots-Tags (im HTTP-Header) verwendet wird. Er gibt Suchmaschinen-Crawlern die klare Anweisung, eine bestimmte URL **nicht in ihren Suchindex aufzunehmen** und sie somit nicht in den Suchergebnissen anzuzeigen.

Warum “noindex” ein mächtiges SEO-Werkzeug ist

Es mag kontraintuitiv klingen, aber Google mitzuteilen, Seiten zu ignorieren, ist entscheidend für eine saubere und starke Website:

Vermeidung von Duplicate Content: Sie können damit Seiten ausschließen, die zu Duplicate Content-Problemen führen könnten, z.B. druckerfreundliche Versionen eines Artikels oder Filterseiten in einem Shop, die Sie nicht per Canonical Tag lösen können.
Index-Hygiene & Qualitätssteigerung: Sie können Seiten mit geringem Mehrwert (“Thin Content”) aus dem Index fernhalten. Dazu gehören z.B. interne Suchergebnisseiten, Tag-Archive mit nur einem Beitrag oder “Danke”-Seiten nach einer Formular-Eingabe. Indem Sie diese “schwachen” Seiten ausblenden, verbessern Sie die durchschnittliche Qualität Ihrer indexierten Seiten, was Google positiv bewertet (siehe Helpful Content System).
Fokussierung des Crawl Budgets: Auch wenn Google eine Seite erst crawlen muss, um das `noindex`-Tag zu sehen, lernt der Algorithmus mit der Zeit, welche Bereiche Ihrer Website unwichtig sind, und kann sein Crawl Budget effizienter auf Ihre wichtigen Inhalte konzentrieren.
Schutz privater oder interner Inhalte: Verhindern Sie, dass Admin-Logins, Staging-Umgebungen oder interne Dokumente versehentlich in den Suchergebnissen auftauchen.

Wie wird “noindex” implementiert?

Es gibt zwei gängige Methoden:

1. Per Meta-Tag (am häufigsten):Sie fügen den folgenden Code in den <head>-Bereich der betreffenden HTML-Seite ein:
  <meta name="robots" content="noindex">
  Wenn Sie möchten, dass Google die Links auf der Seite trotzdem verfolgt (was oft sinnvoll ist), verwenden Sie:
  <meta name="robots" content="noindex, follow">
2. Per X-Robots-Tag (im HTTP-Header):Diese Methode ist notwendig, wenn Sie Nicht-HTML-Dateien wie PDFs, Bilder oder Dokumente von der Indexierung ausschließen möchten. Die Implementierung erfolgt auf dem Server.

Der entscheidende Unterschied: `noindex` vs. `robots.txt`

Das ist der häufigste und gefährlichste Fehler, den Einsteiger machen. Diese beiden Dinge tun NICHT dasselbe!

1. - robots.txt (Disallow): Das ist ein “Betreten verboten”-Schild *vor* dem Haus. Der Googlebot darf die Seite gar nicht erst crawlen (ansehen).
  - noindex-Tag: Das ist ein “Nicht weitererzählen”-Schild *im* Haus. Der Googlebot muss das Haus betreten (die Seite crawlen), um das Schild zu lesen.

Die Falle (Profi-Tipp): Blockieren Sie **niemals** eine Seite mit noindex zusätzlich in der robots.txt! Wenn der Googlebot die Seite nicht betreten darf (Disallow), kann er auch das noindex-Schild nicht lesen. Wenn diese blockierte Seite dann externe Links erhält, kann Google sie trotzdem indexieren (zeigt dann “Keine Informationen verfügbar” an). Um eine Seite sicher aus dem Index zu entfernen, muss sie crawlbar bleiben und ein `noindex`-Tag enthalten.

Zusammenfassung: Die "noindex"-Anweisung ist ein wichtiges Werkzeug im technischen SEO, um Suchmaschinen mitzuteilen, eine bestimmte Seite nicht in die Suchergebnisse aufzunehmen. Sie wird hauptsächlich per Meta-Robots-Tag implementiert und ist essenziell für die Vermeidung von Duplicate Content und die Pflege einer qualitativ hochwertigen Website-Struktur. Sie darf nicht mit einer Sperrung per `robots.txt` verwechselt werden.

WebSeo GmbH
Röderstraße 1
01454 Radeberg

Kontakt:
Telefon: 03528 4029727
E-Mail: info@webseo.de

Erstellt von:

Sven Hauswald