Robots.txt ist eine Textdatei, die normalerweise von Webmastern erstellt (aber oft vergessen) wird, um Web-Robots (normalerweise Suchmaschinen-Robots) anzuweisen, Seiten auf ihrer Website zu crawlen. Die Datei robots.txt gibt an, wie Robots eine Website crawlen, auf Inhalte zugreifen und diese indexieren und diese Inhalte den Nutzern bereitstellen müssen. In der Praxis geben robots.txt-Dateien an, ob bestimmte User-Agents (Web-Crawling-Software) Teile einer Website crawlen können oder nicht. Diese Crawling-Anweisungen werden durch „Verbieten“ (diesallow) oder „Erlauben“ (allow) des Verhaltens bestimmter (oder aller) Benutzeragenten festgelegt.
Wo liegt die robots.txt?
Die robots.txt liegt idealerweise im Hauptverzeichnis einer Installation.
Aufruf der robots.txt
Die robots.txt rufen Sie wie folgt auf:
https://domain/robots.txt
robots.txt-Tester von Google
Vorabbemerkung: zur Nutzung dieses Tools sollten Sie die betreffende Seite bei der Google Search Console hinterlegt haben. Ist dies geschehen, dann erreichen Sie den robots.txt-Tester unter der Adresse
Sie können nun eine Property auswählen, die Sie bei der Google Search Console hinterlegt haben. Anschließend testet das Tool ob eine robots.txt vorhanden ist, ob diese erreichbar ist und ob eventuell Fehler enthalten sind.
Das Ergebnis kann wie folgt aussehen: