Entfernt ein Disallow eine Seite aus dem Google-Index?

Nein. Disallow verhindert das Crawling, nicht die Indexierung. Eine bereits bekannte URL kann weiterhin im Index erscheinen. Für das Entfernen nutze Meta-Robots oder X-Robots-Tag mit „noindex“ und lasse die Seite crawlbar.

Wo liegt die robots.txt und wie heißt sie?

Immer im Webroot und exakt „/robots.txt“. Unterpfade oder andere Dateinamen werden ignoriert.

Welche Syntax unterstützen gängige Crawler?

User-agent, Allow, Disallow. Google und Bing unterstützen Wildcards „*“ sowie den Endanker „$“. Die spezifischste Regel gewinnt; Allow kann eine Disallow-Regel auf Pfadebene ausnehmen.

Wie binde ich eine Sitemap korrekt ein?

Per „Sitemap: https://example.tld/sitemap.xml“ in einer eigenen Zeile. Mehrere Sitemaps oder ein Index sind erlaubt. Die Angabe ist ein Hinweis, kein Muss, aber bewährt.

Ist „crawl-delay“ sinnvoll?

Google ignoriert „crawl-delay“. Bing kann es berücksichtigen; praktischer ist die Crawlrate über die jeweiligen Webmaster-Tools zu steuern und Serverkapazitäten zu optimieren.

Wie teste ich meine robots.txt?

Mit einem Robots-Tester, der URL gegen Regelwerk prüft, zusätzlich per Live-Abfrage und Logfile-Kontrolle. Achte auf 200-Status, keine 404/403, richtige Kodierung und maximale Dateigröße (ca. 500 KB).

Soll ich Assets wie CSS/JS blockieren?

Nein. Blockierte Ressourcen können das Rendering beeinträchtigen. Wichtige Assets sollten crawlbar sein, damit Suchmaschinen die Seite korrekt darstellen können.

Kann ich Staging mit robots.txt absichern?

Für Staging zusätzlich zu „Disallow: /“ immer einen HTTP-Auth-Schutz nutzen. Nur Disallow reicht nicht, falls URLs extern verlinkt oder erraten werden.

Was ist die robots.txt? (Anweisungen für Suchmaschinen-Bots)

Bevor ein Suchmaschinen-Crawler wie der Googlebot Ihre Website besucht, hält er an der digitalen “Haustür” an und liest das “Hausregel”-Schild. Dieses Schild ist die robots.txt-Datei. Sie ist eine der grundlegendsten und wichtigsten Dateien für das technische SEO.

Die schnelle Definition

Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis (Root) einer Domain liegt. Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche (Dateien oder Verzeichnisse) der Website sie **nicht crawlen** (besuchen) dürfen. Sie ist Teil des “Robots Exclusion Protocol” (REP).

Crawl-Steuerung & Schutz von Inhalten

Die Hauptfunktion der robots.txt ist es, das Verhalten von Bots zu steuern. Dies hat mehrere wichtige Vorteile:

Verwaltung des Crawl Budgets: Suchmaschinen weisen jeder Website begrenzte Ressourcen zu. Indem Sie unwichtige Bereiche (z.B. Admin-Login, interne Suchergebnisseiten, Warenkörbe) blockieren, verhindern Sie, dass Googlebot seine Zeit dort verschwendet, und lenken ihn stattdessen auf Ihre wichtigen Inhalte.
Verhinderung der Indexierung irrelevanter Seiten: Indem Sie das Crawlen von unwichtigen Seiten verhindern, reduzieren Sie die Wahrscheinlichkeit, dass diese im Index landen und z.B. als Duplicate Content oder Thin Content gewertet werden.
Schutz sensibler Bereiche: Sie können Verzeichnisse mit privaten oder internen Informationen für Bots sperren (Achtung: Dies ist kein echter Sicherheitsschutz!).
Blockieren von “Bad Bots”: Sie können (eingeschränkt) versuchen, bekannte schädliche Bots vom Zugriff auf Ihre Seite auszuschließen.

Wie sieht eine robots.txt-Datei aus? (Beispiele)

Die Datei ist sehr einfach aufgebaut und besteht hauptsächlich aus zwei Befehlen:

User-agent: Definiert, für welchen Bot die Regel gilt (z.B. Googlebot, Bingbot oder * für alle Bots).
Disallow: Verbietet den Zugriff auf das angegebene Verzeichnis oder die Datei.
Allow: Erlaubt explizit den Zugriff (wird seltener benötigt, kann aber nützlich sein, um Ausnahmen zu definieren).

Beispiel 1: Allen Bots alles erlauben (Standard)

User-agent: *
Disallow:

Beispiel 2: Allen Bots alles verbieten (Seite offline schalten)

User-agent: *
Disallow: /

Beispiel 3: Den Admin-Bereich von WordPress für alle Bots sperren

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

(Hier wird der Admin-Bereich gesperrt, aber die wichtige Datei `admin-ajax.php` wird explizit erlaubt, da sie oft für die Funktionalität der Seite benötigt wird.)

Der entscheidende Unterschied: `robots.txt` vs. `noindex`

Das ist der häufigste und gefährlichste Fehler im technischen SEO!

robots.txt (Disallow) = “Betreten verboten!”Sie verbieten dem Bot, die Seite zu crawlen (zu betreten). Der Bot sieht die Seite nicht. Wenn die Seite aber von extern verlinkt ist, kann Google sie **trotzdem indexieren** (zeigt dann die URL ohne Beschreibung an).
Meta Tag noindex = “Betreten erlaubt, aber nicht weitererzählen!”Der Bot *darf* die Seite crawlen und das noindex-Tag lesen. Er wird die Seite daraufhin zuverlässig aus dem Index entfernen.

Profi-Tipp: Eine Seite, die Sie aus dem Google-Index entfernen möchten, **darf NICHT** in der robots.txt gesperrt werden. Google muss sie crawlen können, um das `noindex`-Tag zu sehen.

Zusammenfassung: Die robots.txt-Datei ist eine einfache Textdatei im Hauptverzeichnis einer Website, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie nicht besuchen (crawlen) sollen. Sie ist ein zentrales Werkzeug zur Steuerung des Crawl Budgets und zur Verhinderung der Indexierung unwichtiger Bereiche. Sie darf jedoch nicht mit dem noindex-Tag verwechselt werden, das zur Deindexierung von Seiten dient.

WebSeo GmbH
Röderstraße 1
01454 Radeberg

Kontakt:
Telefon: 03528 4029727
E-Mail: info@webseo.de

Erstellt von:

Sven Hauswald

Was ist die robots.txt? (Anweisungen für Suchmaschinen-Bots)

Die schnelle Definition

Crawl-Steuerung & Schutz von Inhalten

Wie sieht eine robots.txt-Datei aus? (Beispiele)

Der entscheidende Unterschied: robots.txt vs. noindex

Der entscheidende Unterschied: `robots.txt` vs. `noindex`