Robots.txt Datei

Legen Sie Regeln für Suchmaschinen fest

Die Robots.txt im Rootverzeichnis einer Webseite ist gedacht um Suchmaschinen oder Programmen vorab zu sagen welche Verzeichnisse und Dateien erlaubt bzw. verboten sind.
Es ist eine einfach Textdatei ohne spezielle Formatierungen. Diese sollte unbedingt nur mit einem Texteditor und nicht mit Programmen wie Word bearbeitet werden!

Sollten Sie keine Robots.txt in Verwendung haben ist dies kein Problem da diese keine Pflicht ist.

 

Syntax:

User-agent: definiert das Programm oder Dienst (Bsp Google) für welchen die Regel gilt.
disallow: definiert was sie sperren möchten. Alles was nicht definiert ist gilt als erlaubt.

Das Sperren von bestimmten Verzeichnissen oder Dateien kann sehr nützlich sein, wenn Sie nicht möchten dass Ihre Daten in einer Suchmaschinen erscheinen und ein Passwortschutz nicht möglich ist.

Hier sind die wichtigsten User-Agents im Überblick:

Alle: *
Google Suche: Googlebot
Google Bilder: Googlebot-Image
Google Werbebot: Mediapartners-Google*

 

Nachfolgend ein Paar Anwendungsbeispiele für die Robots.txt

 

Alles freigeben, nichts sperren

User-agent: *
Disallow:

 

Alles sperren, nichts freigeben Vorsicht!

User-agent: *
Disallow: /

 

Bestimmte Verzeichnisse sperren, aber sonst alles freigeben

User-agent: *
Disallow: /vertraulich/
Disallow: /geheim/

Hinweis: Hier werden die Verzeichnisse "vertraulich" und "geheim" für alles gesperrt,
ansonsten ist alles ohne Einschränkung freigegeben

Bestimmte Dateien sperren, aber sonst alles freigeben

User-agent: *
Disallow: /vertraulich/dringend.html
Disallow: /gehalt.html

Hinweis: Hier werden nur die Dateien "dringend.html" und "gehalt.html" im jeweiligen Verzeichnis gesperrt.
Alle anderen Dateien die evtl. noch in diesem Verzeichnis liegen sind ohne Einschränkung.

 

Wachbackmachine (Archive.org) ausschließen, aber sonst alles für alle erlauben

User-agent: ia_archiver
disallow: /

Hinweis: Dies ist für alle interessant die nicht möchten das man sehen kann wie Ihre Webseite früher aussah bzw. welcher Inhalt dort angezeigt wurde.

 

Bestimmte Dateitypen sperren, aber sonst alles freigeben

User-agent: *
Disallow: /*.gif$
Hinweis: Dies verhindert die Speicherung von Ihren Bildern in diesem Fall alle mit der Dateiendung .gif.

Kombinieren Sie Robots.txt Einträge

Natürlich können Sie die verschiedenen Einträge auch zusammen verwenden Bsp:

User-agent: *
Disallow: /vertraulich/
Disallow: /vertraulich/dringend.htmlUser-agent: Googlebot-Image
Disallow: /*.gif$Natürlich können sich aus erst mal alles verbieten und nur bestimmte Teile wiederum erlauben
wie Bsp. das Verzeichnis Dateien. Dies würde dann wie folgt aussehen:

User-agent: *
Disallow: /
Allow: /dateien

Verwenden Sie eine # in dieser Datei wird der nachfolgende Inhalt dieser Zeile als Kommentar gewertet.

 

Spam Reduzieren?

Es ist sicherlich möglich "böse" Bots und unerwünschte Spam Programme auszuschliessen jedoch ignorieren diese meist die Information in der Robots.txt.
Um diese langfristig zu verbannen müssen Sie dies in Ihrer .htaccess Datei ausschließen.