robots.txt ist der Dateiname, der für die Implementierung des "Robots Exclusion Protocol" verwendet wird, einem Standard, der von Webmastern verwendet wird, um besuchenden Webcrawlern anzuzeigen, welche Teile der Website sie besuchen dürfen.
Technisch gesehen handelt es sich um eine ganz normale Textdatei (.txt).
Kommentare erscheinen nach dem Symbol „#“ am Anfang einer Zeile oder nach einer Direktive.
Der 1994 entwickelte Standard beruht auf der freiwilligen Einhaltung. Böswillige Bots können die Datei als Verzeichnis der zu besuchenden Seiten verwenden, obwohl Standardisierungsgremien davon abraten, dem mit Sicherheit durch Unklarheit zu begegnen. Einige Archivseiten ignorieren robots.txt. Der Standard wurde in den 1990er Jahren verwendet, um die Überlastung von Servern abzumildern.
In den 2020er Jahren begannen viele Websites, Bots, die Informationen für generative künstliche Intelligenz sammeln, abzulehnen.
Die Datei „robots.txt“ kann in Verbindung mit Sitemaps verwendet werden, einem weiteren Standard für Websites.
Beispiel
Beispiel für die Verwendung mehrerer "user-agents":
User-agent: googlebot # alle Google Dienste Disallow: /private/ # Verbietet das Verzeichnis User-agent: googlebot-news # Nur Google News Disallow: / # Verbietet alle Verzeichnisse User-agent: * # Jeder Robot Allow: / # Erlaubt alle Verzeichnisse
Contao
Barrierefreie Website
Impressum
Datenschutz