“Indexiert, obwohl durch robots.txt-Datei blockiert” ist eine Meldung, die in GSC angezeigt wird, wenn Google URLs indexiert hat, die nicht gecrawlt werden dürfen.
In den meisten Fällen handelt es sich um ein unkompliziertes Problem, bei dem Sie das Crawling in Ihrer robots.txt-Datei blockiert haben. Es gibt jedoch einige zusätzliche Bedingungen, die das Problem auslösen können. Lassen Sie uns daher den folgenden Prozess zur Fehlersuche durchgehen, um die Dinge so effizient wie möglich zu diagnostizieren und zu beheben:
Entscheidungspfad, um das GSC-Problem zu lösen
Wie Sie sehen, besteht der erste Schritt darin, sich zu fragen, ob Sie möchten, dass Google die URL indexiert.
Wenn Sie nicht wollen, dass die URL indexiert wird…
Fügen Sie einfach ein Noindex-Meta-Robots-Tag hinzu und stellen Sie sicher, dass das Crawling erlaubt ist – vorausgesetzt, die Seite ist kanonisch.
Wenn Sie eine Seite für das Crawling sperren, kann sie von Google trotzdem indiziert werden, da Crawling und Indizierung zwei verschiedene Dinge sind. Wenn Google eine Seite nicht crawlen kann, sieht es das Noindex-Meta-Tag nicht und indiziert die Seite möglicherweise trotzdem, weil sie Links enthält.
Wenn die URL zu einer anderen Seite kanonisiert wird, brauchen Sie kein Noindex-Meta-Robots-Tag hinzuzufügen. Stellen Sie einfach sicher, dass die richtigen Kanonisierungssignale vorhanden sind, einschließlich eines kanonischen Tags auf der kanonischen Seite, und erlauben Sie das Crawling, damit die Signale durchgelassen und korrekt konsolidiert werden.
Wenn Sie die URL indexiert haben möchten…
Sie müssen herausfinden, warum Google die URL nicht crawlen kann, und die Sperre entfernen.
Die wahrscheinlichste Ursache ist eine Crawl-Sperre in der robots.txt-Datei. Es gibt aber noch ein paar andere Szenarien, in denen Sie Meldungen sehen können, dass Sie blockiert sind. Gehen wir diese in der Reihenfolge durch, in der Sie wahrscheinlich nach ihnen suchen sollten.
- Prüfen Sie auf eine Crawl-Sperre in der robots.txt-Datei
- Prüfen Sie auf periodische Blockierungen
- Prüfen Sie auf eine User-Agent-Blockade
- Prüfen Sie auf eine IP-Sperre
Prüfen Sie auf eine Crawl-Sperre in der robots.txt-Datei
Der einfachste Weg, das Problem zu erkennen, ist der robots.txt-Tester in GSC, der die blockierende Regel markiert.
Wenn Sie wissen, wonach Sie suchen, oder keinen Zugang zum GSC haben, können Sie zu domain.com/robots.txt navigieren, um die Datei zu finden. Wenn Sie nach einer “Disallow”-Anweisung suchen wie dieser…:
Disallow: /
…wird möglicherweise ein bestimmter Benutzer-Agent erwähnt, oder es wird jeder blockiert. Wenn Ihre Website neu ist oder vor kurzem gestartet wurde, sollten Sie danach suchen:
User-agent: * Disallow: /
Sie können kein Problem finden?
Es ist möglich, dass jemand den robots.txt-Block bereits behoben und das Problem gelöst hat, bevor Sie sich mit dem Problem befasst haben. Das ist der günstigste Fall. Wenn das Problem jedoch behoben zu sein scheint, aber kurz darauf erneut auftritt, haben Sie möglicherweise eine intermittierende Sperre.
Wie Sie das beheben
Sie müssen die Disallow-Anweisung, die den Block verursacht, entfernen. Wie Sie dies tun, ist von der verwendeten Technologie abhängig.
WordPress
Wenn sich das Problem auf Ihre gesamte Website auswirkt, ist die wahrscheinlichste Ursache, dass Sie eine Einstellung in WordPress aktiviert haben, um die Indizierung zu unterbinden. Dieser Fehler tritt häufig bei neuen Websites und nach Website-Migrationen auf. Führen Sie die folgenden Schritte aus, um ihn zu überprüfen:
- Klicken Sie auf ‘Einstellungen’
- Klicken Sie auf ‘Lesen’
- Stellen Sie sicher, dass “Sichtbarkeit für Suchmaschinen” nicht aktiviert ist (unter “Lesen” in den Einstellungen)
WordPress mit Yoast
Wenn Sie das Yoast SEO-Plugin verwenden, können Sie die robots.txt-Datei direkt bearbeiten, um die Sperranweisung zu entfernen.
- Klicken Sie auf ‘Yoast SEO’.
- Klicken Sie auf ‘Tools’
- Klicken Sie auf ‘Datei-Editor’.
WordPress mit Rank Math
Ähnlich wie bei Yoast können Sie mit Rank Math die robots.txt-Datei direkt bearbeiten.
- Klicken Sie auf ‘Rank Math’.
- Klicken Sie auf ‘Allgemeine Einstellungen’.
- Klicken Sie auf ‘robots.txt bearbeiten’.
FTP oder Hosting
Wenn Sie FTP-Zugriff auf die Website haben, können Sie die Datei robots.txt direkt bearbeiten, um die Disallow-Anweisung zu entfernen, die das Problem verursacht. Ihr Hosting-Provider gibt Ihnen möglicherweise auch Zugriff auf einen Dateimanager, mit dem Sie direkt auf die robots.txt-Datei zugreifen können.
Prüfen Sie auf periodische Blockierungen
Periodische Probleme können schwieriger zu beheben sein, da die Bedingungen, die die Blockierung verursachen, möglicherweise nicht immer vorhanden sind.
Daher ist es zu empfehlen, den Verlauf Ihrer robots.txt-Datei zu überprüfen. Wenn Sie z. B. im GSC robots.txt-Tester auf das Dropdown-Menü klicken, werden frühere Versionen der Datei angezeigt, auf die Sie klicken können, um zu sehen, was diese enthielten.
Die “Wayback Machine” auf archive.org hat auch einen Verlauf der robots.txt-Dateien für die Websites, die sie crawlen. Sie können auf ein beliebiges Datum klicken, für das sie Daten haben, und sehen, was die Datei an diesem Tag enthielt.
Oder Sie verwenden die Beta-Version des Änderungsberichts, mit dem Sie Änderungen am Inhalt zwischen zwei verschiedenen Versionen leicht erkennen können.
Wie Sie das beheben
Der Prozess zur Behebung von intermittierenden Blöcken hängt davon ab, was das Problem verursacht. Eine mögliche Ursache ist zum Beispiel ein gemeinsamer Cache zwischen einer Test- und einer Live-Umgebung. Wenn der Cache der Testumgebung aktiv ist, kann die robots.txt-Datei eine Blockierungsrichtlinie enthalten. Wenn der Cache der Live-Umgebung aktiv ist, kann die Site gecrawlt werden. In diesem Fall sollten Sie den Cache aufteilen oder eventuell .txt-Dateien aus dem Cache in der Testumgebung ausschließen.
Prüfen Sie auf eine User-Agent-Blockade
User-Agent-Blocks sind, wenn eine Website einen bestimmten User-Agent wie Googlebot oder AhrefsBot blockiert. Mit anderen Worten: Die Website erkennt einen bestimmten Bot und blockiert den entsprechenden User-Agent.
Wenn Sie eine Seite in Ihrem normalen Browser problemlos anzeigen können, aber nach dem Ändern des User-Agents blockiert werden, bedeutet dies, dass der spezifische User-Agent, den Sie eingegeben haben, blockiert ist.
Sie können einen bestimmten User-Agent mit den Chrome Entwicklertools festlegen. Eine weitere Möglichkeit ist die Verwendung einer Browser-Erweiterung zum Ändern von Benutzer-Agenten wie dieser.
Alternativ können Sie mit einem cURL-Befehl auf User-Agent-Blockierungen prüfen. Unter Windows gehen Sie folgendermaßen vor:
- Drücken Sie Windows+R, um ein “Ausführen”-Feld zu öffnen.
- Geben Sie “cmd” ein und klicken Sie dann auf “OK”.
- Geben Sie einen cURL-Befehl wie diesen ein:
curl -A “user-agent-name-here” -Lv [URL] curl -A “Mozilla/5.0 (compatible; Googlebot/7.0; +http://google.com/)” -Lv https://google.com
Wie Sie das beheben
Leider ist dies ein weiterer Fall, bei dem die Behebung davon abhängt, wo Sie die Blockierung finden. Viele verschiedene Systeme können einen Bot blockieren, einschließlich .htaccess, Serverkonfiguration, Firewalls, CDN oder sogar etwas, das Sie nicht sehen können und das Ihr Hosting-Provider kontrolliert. Am besten setzen Sie sich mit Ihrem Hosting-Provider oder CDN in Verbindung und fragen, woher die Blockierung kommt und wie Sie sie auflösen können.
Hier sind zum Beispiel zwei verschiedene Möglichkeiten, einen User-Agent in .htaccess zu blockieren, nach denen Sie möglicherweise suchen müssen:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} Googlebot [NC] RewriteRule .* - [F,L]
Oder…:
BrowserMatchNoCase "Googlebot" bots Order Allow,Deny Allow from ALL Deny from env=bots
Prüfen Sie auf eine IP-Sperre
Wenn Sie sich vergewissert haben, dass Sie nicht von robots.txt blockiert werden und User-Agent-Blockierungen ausgeschlossen sind, dann ist es wahrscheinlich eine IP-Blockierung.
Wie Sie das beheben
IP-Blöcke sind schwer aufzuspüren. Wie bei User-Agent-Blöcken ist es am besten, wenn Sie Ihren Hosting-Provider oder das CDN kontaktieren und fragen, woher der Block kommt und wie Sie ihn auflösen können.
Hier ist ein Beispiel für etwas, nach dem Sie in der .htaccess suchen können:
deny from 123.123.123.123
Abschließende Gedanken
In den meisten Fällen resultiert die Warnung “indexiert, obwohl durch robots.txt blockiert” aus einer robots.txt-Sperre. Hoffentlich hat Ihnen diese Anleitung geholfen, das Problem zu finden und zu beheben, wenn das bei Ihnen nicht der Fall war. Sollte Ihr Problem trotz allem noch nicht gelöst sein, wenden Sie sich mit Ihren Fragen gerne an unser Team.