![]() |
Cornelie Müller-Gödecke / Friedrich von Randow:
|
| E-Mail: | |
|---|---|
| Homepage-URL: |
| E-Mail: | |
|---|---|
| Homepage-URL: |
Bei Fragen zu diesem Beitrag bitte die Autoren des Beitrags kontaktieren!
Die Web-Kataloge (beispielsweise YAHOO) und die Web-Suchmaschinen (z.B. ALTAVISTA) sammeln ihr "Futter" auf verschiedenen Wegen:
SRE, oder "Standard For Robots Exclusion", ist ein Standard, der defininiert, wie man diese Robots von Seiten ausschließen oder, im Gegensatz dazu, wie man Robots mit Informationen gezielt füttern kann.
Dieser Standard wurde 1994 von Martijn Koster entwickelt und der Internet Engineering Task Force zur Debatte vorgelegt. Noch ist SRE ein inoffizieller Standard, aber die meisten Robots halten sich daran.
Dem SRE-Standard zufolge wird in einer einfachen Textdatei namens robots.txt festgelegt, welche Seiten auf keinen Fall durchsucht werden dürfen. Dabei ist es möglich, dies für jeden einzelnen Robot zu definieren, oder eben für alle. Die Datei robots.txt muss in der "root" (also im virtuellen Stammverzeichnis) des Servers stehen, nur da wird sie gesucht.
Nicht alle Robots folgen den Anweisungen in robots.txt oder den Hinweisen in den META-Tags. Man kann also nicht davon ausgehen, daß damit nun wirklich geheime Inhalte vor dem Durchsuchen geschützt sind. Aber diese Inhalte gehören sowieso nicht ins Netz oder sollten mit Passworten geschützt werden. Trotzdem kann man auf diese Weise verhindern, daß bestimmte Inhalte nicht unbedingt breitgetreten werden.
Eine Datei robots.txt enthält zwei Schlüssel-Worte: User-agent und Disallow.
User-Agent
Hier kann der Name des Roboters angegeben werden, dessen Zugriffsmöglichkeit beeinflusst werden soll. Es können beliebig viele einzelne User-Agent Einträge vorgenommen werden. Hierzu sollte jeder Eintrag in einer eigene Zeile stehen.
Steht als User-Agent ein Sternzeichen (*), werden alle Roboter angesprochen, auf die keiner der darüberstehenden Einträge zutreffen.
Disallow
Hinter Disallow stehen die Dateispezifikationen, die nicht vom Roboter ausgewertet werden sollen. Hier kann ein Pfad vermerkt sein oder eine oder mehrere URL-Adressen.
Ferner sind Kommentare erlaubt. Textinhalte nach einem Gatterzeichen (#) werden ignoriert und können somit für interne Beschreibungen (Kommentare) verwendet werden.
# robots.txt for http://www.site.com/ User-agent: * # Alle Suchmaschinen werden angesprochen Disallow: /cyberworld/map/ # Sperrung eines bestimmten Bereiches Disallow: /tmp/ # Sperrung eines bestimmten Bereiches
# robots.txt for http://www.site.com/ User-agent: cybermapper # Nur der Robot "Cybermapper" wird angesprochen Disallow: / # Dieser Robot darf nichts auswerten.
# robots.txt for http://www.site.com/ User-agent: * # Alle Suchmaschinen werden angesprochen Disallow: / # Kein Robot darf irgendetwas auswerten.
In den Beispielen wird eine Domain-Adresse namens http://www.site.com/ angenommen. Dies ist die "root", also das virtuelle Stammverzeichnis.
In Beispiel 1 werden mit User-agent: * alle Robots angesprochen. Allen Robots wird mit Disallow: /cyberworld/map/ und Disallow: /tmp/ verboten, URL-Adressen unterhalb von http://www.site.com/cyberworld/map/ und http://www.site.com/tmp/ auszulesen.
In Beispiel 2 wird mit User-agent: cybermapper ein bestimmer Robot angesprochen. Den Namen eines solchen Robots müssen Sie kennen. Dem Robot wird im Beispiel mit Disallow: / verboten, überhaupt irgendetwas unterhalb von http://www.site.com/ auszuwerten. Durch den Schrägstrich wird einfach das Wurzelverzeichnis (root) bezeichnet.
In Beispiel 3 wird allen Robots verboten, überhaupt irgendetwas unterhalb von http://www.site.com/ auszuwerten. Dies ist jedoch wohl nur in Ausnahmefällen sinnvoll.
Weitere Informationen zu dem Thema finden Sie im WWW:
http://info.webcrawler.com/mak/projects/robots/robots.html
Martijn Kosters Seite über Web Robots
http://info.webcrawler.com/mak/projects/robots/active.html
Informationen über die verschiedensten Robots
http://www.tidbits.com/tonya/
Tonya Engst's Seite. Tonya Engst schreibt seit langem für den Newsletter TidBITS und veröffentlicht netzbezogene Artikel.