Teil von SELFHTML aktuell Teil von Artikel Teil von Projektverwaltung

Cornelie Müller-Gödecke / Friedrich von Randow:
Zugriffskontrolle für Suchmaschinen mit robots.txt

nach unten Autoren
nach unten Sinn und Zweck der Datei robots.txt
nach unten Beispiele

Autoren

Cornelie Müller-Gödecke

E-Mail: E-Mail avantart@compuserve.com
Homepage-URL: deutschsprachige Seite http://www.avantart.com/

Friedrich von Randow

E-Mail: E-Mail F@Randow.com
Homepage-URL: deutschsprachige Seite http://www.randow.com/

Bei Fragen zu diesem Beitrag bitte die Autoren des Beitrags kontaktieren!

nach obennach unten

Sinn und Zweck der Datei robots.txt

Die Web-Kataloge (beispielsweise YAHOO) und die Web-Suchmaschinen (z.B. ALTAVISTA) sammeln ihr "Futter" auf verschiedenen Wegen:

SRE, oder "Standard For Robots Exclusion", ist ein Standard, der defininiert, wie man diese Robots von Seiten ausschließen oder, im Gegensatz dazu, wie man Robots mit Informationen gezielt füttern kann.

Dieser Standard wurde 1994 von Martijn Koster entwickelt und der Internet Engineering Task Force zur Debatte vorgelegt. Noch ist SRE ein inoffizieller Standard, aber die meisten Robots halten sich daran.

Dem SRE-Standard zufolge wird in einer einfachen Textdatei namens robots.txt festgelegt, welche Seiten auf keinen Fall durchsucht werden dürfen. Dabei ist es möglich, dies für jeden einzelnen Robot zu definieren, oder eben für alle. Die Datei robots.txt muss in der "root" (also im virtuellen Stammverzeichnis) des Servers stehen, nur da wird sie gesucht.
Nicht alle Robots folgen den Anweisungen in robots.txt oder den Hinweisen in den META-Tags. Man kann also nicht davon ausgehen, daß damit nun wirklich geheime Inhalte vor dem Durchsuchen geschützt sind. Aber diese Inhalte gehören sowieso nicht ins Netz oder sollten mit Passworten geschützt werden. Trotzdem kann man auf diese Weise verhindern, daß bestimmte Inhalte nicht unbedingt breitgetreten werden.

nach obennach unten

Beispiele

Eine Datei robots.txt enthält zwei Schlüssel-Worte: User-agent und Disallow.

User-Agent
Hier kann der Name des Roboters angegeben werden, dessen Zugriffsmöglichkeit beeinflusst werden soll. Es können beliebig viele einzelne User-Agent Einträge vorgenommen werden. Hierzu sollte jeder Eintrag in einer eigene Zeile stehen.
Steht als User-Agent ein Sternzeichen (*), werden alle Roboter angesprochen, auf die keiner der darüberstehenden Einträge zutreffen.

Disallow
Hinter Disallow stehen die Dateispezifikationen, die nicht vom Roboter ausgewertet werden sollen. Hier kann ein Pfad vermerkt sein oder eine oder mehrere URL-Adressen.

Ferner sind Kommentare erlaubt. Textinhalte nach einem Gatterzeichen (#) werden ignoriert und können somit für interne Beschreibungen (Kommentare) verwendet werden.

Beispiel 1:

# robots.txt for http://www.site.com/
User-agent: * # Alle Suchmaschinen werden angesprochen
Disallow: /cyberworld/map/ # Sperrung eines bestimmten Bereiches
Disallow: /tmp/ # Sperrung eines bestimmten Bereiches

Beispiel 2:

# robots.txt for http://www.site.com/
User-agent: cybermapper # Nur der Robot "Cybermapper" wird angesprochen
Disallow: / # Dieser Robot darf nichts auswerten.

Beispiel 3:

# robots.txt for http://www.site.com/
User-agent: * # Alle Suchmaschinen werden angesprochen
Disallow: / # Kein Robot darf irgendetwas auswerten.

Erläuterung:

In den Beispielen wird eine Domain-Adresse namens http://www.site.com/ angenommen. Dies ist die "root", also das virtuelle Stammverzeichnis.

In Beispiel 1 werden mit User-agent: * alle Robots angesprochen. Allen Robots wird mit Disallow: /cyberworld/map/ und Disallow: /tmp/ verboten, URL-Adressen unterhalb von http://www.site.com/cyberworld/map/ und http://www.site.com/tmp/ auszulesen.

In Beispiel 2 wird mit User-agent: cybermapper ein bestimmer Robot angesprochen. Den Namen eines solchen Robots müssen Sie kennen. Dem Robot wird im Beispiel mit Disallow: / verboten, überhaupt irgendetwas unterhalb von http://www.site.com/ auszuwerten. Durch den Schrägstrich wird einfach das Wurzelverzeichnis (root) bezeichnet.

In Beispiel 3 wird allen Robots verboten, überhaupt irgendetwas unterhalb von http://www.site.com/ auszuwerten. Dies ist jedoch wohl nur in Ausnahmefällen sinnvoll.

Beachten Sie:

Weitere Informationen zu dem Thema finden Sie im WWW:

englischsprachige Seite http://info.webcrawler.com/mak/projects/robots/robots.html
Martijn Kosters Seite über Web Robots

englischsprachige Seite http://info.webcrawler.com/mak/projects/robots/active.html
Informationen über die verschiedensten Robots

englischsprachige Seite http://www.tidbits.com/tonya/
Tonya Engst's Seite. Tonya Engst schreibt seit langem für den Newsletter TidBITS und veröffentlicht netzbezogene Artikel.

Teil von SELFHTML aktuell Teil von Artikel Teil von Projektverwaltung

© 2007 bereichsübergreifende Seite Impressum