Was ist die robots.txt? (Anweisungen für Suchmaschinen-Bots)

Bevor ein Suchmaschinen-Crawler wie der Googlebot Ihre Website besucht, hält er an der digitalen “Haustür” an und liest das “Hausregel”-Schild. Dieses Schild ist die robots.txt-Datei. Sie ist eine der grundlegendsten und wichtigsten Dateien für das technische SEO.

Die schnelle Definition

Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis (Root) einer Domain liegt. Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche (Dateien oder Verzeichnisse) der Website sie **nicht crawlen** (besuchen) dürfen. Sie ist Teil des “Robots Exclusion Protocol” (REP).

Crawl-Steuerung & Schutz von Inhalten

Die Hauptfunktion der robots.txt ist es, das Verhalten von Bots zu steuern. Dies hat mehrere wichtige Vorteile:

  1. Verwaltung des Crawl Budgets: Suchmaschinen weisen jeder Website begrenzte Ressourcen zu. Indem Sie unwichtige Bereiche (z.B. Admin-Login, interne Suchergebnisseiten, Warenkörbe) blockieren, verhindern Sie, dass Googlebot seine Zeit dort verschwendet, und lenken ihn stattdessen auf Ihre wichtigen Inhalte.
  2. Verhinderung der Indexierung irrelevanter Seiten: Indem Sie das Crawlen von unwichtigen Seiten verhindern, reduzieren Sie die Wahrscheinlichkeit, dass diese im Index landen und z.B. als Duplicate Content oder Thin Content gewertet werden.
  3. Schutz sensibler Bereiche: Sie können Verzeichnisse mit privaten oder internen Informationen für Bots sperren (Achtung: Dies ist kein echter Sicherheitsschutz!).
  4. Blockieren von “Bad Bots”: Sie können (eingeschränkt) versuchen, bekannte schädliche Bots vom Zugriff auf Ihre Seite auszuschließen.

Wie sieht eine robots.txt-Datei aus? (Beispiele)

Die Datei ist sehr einfach aufgebaut und besteht hauptsächlich aus zwei Befehlen:

  • User-agent: Definiert, für welchen Bot die Regel gilt (z.B. Googlebot, Bingbot oder * für alle Bots).
  • Disallow: Verbietet den Zugriff auf das angegebene Verzeichnis oder die Datei.
  • Allow: Erlaubt explizit den Zugriff (wird seltener benötigt, kann aber nützlich sein, um Ausnahmen zu definieren).

Beispiel 1: Allen Bots alles erlauben (Standard)

User-agent: *
Disallow:

Beispiel 2: Allen Bots alles verbieten (Seite offline schalten)

User-agent: *
Disallow: /

Beispiel 3: Den Admin-Bereich von WordPress für alle Bots sperren

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

(Hier wird der Admin-Bereich gesperrt, aber die wichtige Datei `admin-ajax.php` wird explizit erlaubt, da sie oft für die Funktionalität der Seite benötigt wird.)

Der entscheidende Unterschied: robots.txt vs. noindex

Das ist der häufigste und gefährlichste Fehler im technischen SEO!

  • robots.txt (Disallow) = “Betreten verboten!”Sie verbieten dem Bot, die Seite zu crawlen (zu betreten). Der Bot sieht die Seite nicht. Wenn die Seite aber von extern verlinkt ist, kann Google sie **trotzdem indexieren** (zeigt dann die URL ohne Beschreibung an).
  • Meta Tag noindex = “Betreten erlaubt, aber nicht weitererzählen!”Der Bot *darf* die Seite crawlen und das noindex-Tag lesen. Er wird die Seite daraufhin zuverlässig aus dem Index entfernen.

Profi-Tipp: Eine Seite, die Sie aus dem Google-Index entfernen möchten, **darf NICHT** in der robots.txt gesperrt werden. Google muss sie crawlen können, um das `noindex`-Tag zu sehen.

Zusammenfassung: Die robots.txt-Datei ist eine einfache Textdatei im Hauptverzeichnis einer Website, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie nicht besuchen (crawlen) sollen. Sie ist ein zentrales Werkzeug zur Steuerung des Crawl Budgets und zur Verhinderung der Indexierung unwichtiger Bereiche. Sie darf jedoch nicht mit dem noindex-Tag verwechselt werden, das zur Deindexierung von Seiten dient.
Geschäftsführer: Sven Hauswald

WebSeo GmbH
Röderstraße 1
01454 Radeberg

Kontakt:
Telefon: 03528 4029727
E-Mail: info@webseo.de

Webseo Icon
Datenschutz-Übersicht

Wir verwenden Cookies, damit wir Ihnen die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in Ihrem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn Sie auf unsere Website zurückkehren, und hilft unserem Team zu verstehen, welche Abschnitte der Website für Sie am interessantesten und nützlichsten sind.