Robots.txt Datei
Legen Sie Regeln für Suchmaschinen fest
Die Robots.txt im Rootverzeichnis einer Webseite ist gedacht um Suchmaschinen oder Programmen vorab zu sagen welche Verzeichnisse und Dateien erlaubt bzw. verboten sind.
Es ist eine einfach Textdatei ohne spezielle Formatierungen. Diese sollte unbedingt nur mit einem Texteditor und nicht mit Programmen wie Word bearbeitet werden!
Sollten Sie keine Robots.txt in Verwendung haben ist dies kein Problem da diese keine Pflicht ist.
Syntax:
User-agent: definiert das Programm oder Dienst (Bsp Google) für welchen die Regel gilt.
disallow: definiert was sie sperren möchten. Alles was nicht definiert ist gilt als erlaubt.
Das Sperren von bestimmten Verzeichnissen oder Dateien kann sehr nützlich sein, wenn Sie nicht möchten dass Ihre Daten in einer Suchmaschinen erscheinen und ein Passwortschutz nicht möglich ist.
Hier sind die wichtigsten User-Agents im Überblick:
Alle: *
Google Suche: Googlebot
Google Bilder: Googlebot-Image
Google Werbebot: Mediapartners-Google*
Nachfolgend ein Paar Anwendungsbeispiele für die Robots.txt
Alles freigeben, nichts sperren
Disallow:
Alles sperren, nichts freigeben Vorsicht!
Disallow: /
Bestimmte Verzeichnisse sperren, aber sonst alles freigeben
Disallow: /vertraulich/
Disallow: /geheim/
Hinweis: Hier werden die Verzeichnisse "vertraulich" und "geheim" für alles gesperrt,
ansonsten ist alles ohne Einschränkung freigegeben
Bestimmte Dateien sperren, aber sonst alles freigeben
Disallow: /vertraulich/dringend.html
Disallow: /gehalt.html
Hinweis: Hier werden nur die Dateien "dringend.html" und "gehalt.html" im jeweiligen Verzeichnis gesperrt.
Alle anderen Dateien die evtl. noch in diesem Verzeichnis liegen sind ohne Einschränkung.
Wachbackmachine (Archive.org) ausschließen, aber sonst alles für alle erlauben
disallow: /
Hinweis: Dies ist für alle interessant die nicht möchten das man sehen kann wie Ihre Webseite früher aussah bzw. welcher Inhalt dort angezeigt wurde.
Bestimmte Dateitypen sperren, aber sonst alles freigeben
Disallow: /*.gif$
Hinweis: Dies verhindert die Speicherung von Ihren Bildern in diesem Fall alle mit der Dateiendung .gif.
Kombinieren Sie Robots.txt Einträge
Natürlich können Sie die verschiedenen Einträge auch zusammen verwenden Bsp:
Disallow: /vertraulich/
Disallow: /vertraulich/dringend.htmlUser-agent: Googlebot-Image
Disallow: /*.gif$Natürlich können sich aus erst mal alles verbieten und nur bestimmte Teile wiederum erlauben
wie Bsp. das Verzeichnis Dateien. Dies würde dann wie folgt aussehen:
User-agent: *
Disallow: /
Allow: /dateien
Verwenden Sie eine # in dieser Datei wird der nachfolgende Inhalt dieser Zeile als Kommentar gewertet.
Spam Reduzieren?
Es ist sicherlich möglich "böse" Bots und unerwünschte Spam Programme auszuschliessen jedoch ignorieren diese meist die Information in der Robots.txt.
Um diese langfristig zu verbannen müssen Sie dies in Ihrer .htaccess Datei ausschließen.
