ContaoContao

robots.txt ist der Dateiname, der für die Implementierung des "Robots Exclusion Protocol" verwendet wird, einem Standard, der von Webmastern verwendet wird, um besuchenden Webcrawlern anzuzeigen, welche Teile der Website sie besuchen dürfen.
Technisch gesehen handelt es sich um eine ganz normale Textdatei (.txt).

Kommentare erscheinen nach dem Symbol „#“ am Anfang einer Zeile oder nach einer Direktive.

Der 1994 entwickelte Standard beruht auf der freiwilligen Einhaltung. Böswillige Bots können die Datei als Verzeichnis der zu besuchenden Seiten verwenden, obwohl Standardisierungsgremien davon abraten, dem mit Sicherheit durch Unklarheit zu begegnen. Einige Archivseiten ignorieren robots.txt. Der Standard wurde in den 1990er Jahren verwendet, um die Überlastung von Servern abzumildern.
In den 2020er Jahren begannen viele Websites, Bots, die Informationen für generative künstliche Intelligenz sammeln, abzulehnen.

Die Datei „robots.txt“ kann in Verbindung mit Sitemaps verwendet werden, einem weiteren Standard für Websites.

Beispiel

Beispiel für die Verwendung mehrerer "user-agents":

User-agent: googlebot        # alle Google Dienste
Disallow: /private/          # Verbietet das Verzeichnis 

User-agent: googlebot-news   # Nur Google News
Disallow: /                  # Verbietet alle Verzeichnisse

User-agent: *                # Jeder Robot
Allow: /                     # Erlaubt alle Verzeichnisse