Robots.txt

Was ist die Robots.txt?

Die robots.txt (Robots Exclusion Standard Protokoll – REP) ist eine reine Textdatei (kein HTML) in UTF-8 Kodierung, die seitens des Webmasters erstellt wird um den Suchmaschinen-Bots klare Anweisungen zu erteilen, welche Inhalte gecrawlt werden dürfen und welche nicht. Suchmaschinen wie Google, Yahoo oder Bing halten sich an die Anweisungen in der robots.txt.

Wo finden Sie die robots.txt?

Die Robots.txt, die maximal 500kb groß sein darf, wird meist im sogenannten Root-Verzeichnis einer Domain abgelegt. Dies kann je nach Webhoster der Ordner /html, /www, /public_html oder /httpdocs sein. Die Datei selbst nennt sich wiederum robots.txt: https://www.ihredomain.de/robots.txt

Warum ist eine robots.txt notwendig?

  • Steuerung Indexierung: Haben Sie Inhalte auf Ihrer Domain, die nicht gecrawlt werden sollen, z.B. eine Testumgebung einer neuen Homepage, so empfiehlt sich der Einsatz einer robots.txt. Es kann verboten werden alles zu indexieren, sei es auf der Domain oder Subdomain, Verzeichnisse zu spidern, Dateien oder einzelne URLs zu crawlen.
  • Sitemap: Innerhalb der robots.txt verweisen Sie auf die sitemap.xml, die eine Übersicht Ihrer Domain darstellt.
  • Duplicate Content: Bieten Sie Inhalte zugleich als Druckversion an, so schließen Sie diese mittels der robots.txt aus, um Duplicate Content zu vermeiden.

Beispiele von Anweisungen in der Robots.txt

  • Crawlen der kompletten Seite erlauben
    User-agent: *
    Disallow:
  • Crawlen der kompletten Seite verbieten
    User-agent: *
    Disallow: /
  • Besuch nur speziellen Crawlern erlauben, in diesem Fall Google
    User-agent: Googlebot
    Disallow:
    User-agent: * (für alle außer dem Googlebot)
    Disallow: /
  • Ein Verzeichnis ausschließen
    User-agent: *
    Disallow: /verzeichnis/
  • Eine Seite (URL) ausschließen
    User-agent: *
    Disallow: /dieseite.html
  • Verweis zur Sitemap.xml
    User-agent: *
    Disallow:
    Sitemap: http://www.ihredomain.de/sitemap.xml
  • Bestimmte Dateiendungen sperren
    User-agent: *
    Disallow: /*.pdf$
  • Begrenzung der Crawl Geschwindigkeit in Sekunden
    User-agent: Bingbot
    Crawl-Delay: 6
    (Hinweis: Wird von Yahoo, Bing und Ask unterstützt)
  • URLs mit Parametern sperren
    User-agent: *
    Disallow: /*?
  • Kommentar einfügen (wird nicht beachtet)
    # Kommentar für Ihre robots.txt
    User-agent: *
    Disallow:
  • Auslesen von Bereichen erlauben die vorhergehend ausgeschlossen wurden
    User-agent: *
    Disallow: /verzeichnis/
    Allow: /verzeichnis/freigegebenedatei.html

Welche Google Crawler gibt es?

Crawler User-Agent
Googlebot
(Google Websuche)
Googlebot
Googlebot Nachrichten Googlebot-News
Googlebot Bilder Googlebot-Image
Googlebot Videos Googlebot-Video
Google Mobile Adsence Mediapartners-Google
oder
Mediapartners
Google AdSense Mediapartners-Google
oder
Mediapartners
Google AdsBot AdsBot-Google

Weitere Bots sind:

Slurp Yahoo
Msnbot / bingbot MSN oder Bing
Teoma ASK

Tool zum testen der Robots.txt

Was mit der robots.txt nicht geht

Möchten Sie eine Seite vor einem Aufruf schützen, so ist dies mittels der Robots.txt nicht möglich! Die ausgeschlossenen Seiten, Dateien oder Verzeichnisse sind weiterhin normal mittels einem Webbrowser aufrufbar.

Alternative zur Robots.txt

Das Crawling von HTML Seiten lässt sich auch durch Kennzeichnung im HEAD der Website steuern:

  • Indexierung und folgen der Links freigegeben
    <meta name=“robots“ content=“index,follow“ />
  • Indexierung und folgen der Links nicht freigegeben
    <meta name=“robots“ content=“noindex,nofollow“ />
  • Indexierungsverbot, Links weiter verfolgen
    <meta name=“robots“ content=“noindex,follow“ />

Häufige Fehler beim Einsatz der robots.txt

  • Robots.txt statt robots.txt

    robots.txt eine andere Datei als die Robots.txt.
  • Disallow: /
    Häufig nach einem Relaunch vergessen zu entfernen. Die Indexierung wird verhindert
  • Slash vergessen
    Möchten Sie ein Verzeichnis sperren, so beenden Sie diese mit dem „/“ Slash, z.B.
    Disallow: /verzeichnis/
  • Wildcard verhindert Indexierung
    Schließen Sie beispielsweise mit einer Wildcard „Disallow: /*temp“ Dateien aus, so können auch gleichlautende URLs davon betroffen sein /temperaturen-europa.html
  • Disallow: /log/ /bilder/
    Der Crawler unterscheidet nicht zwischen den Verzeichnissen, d.h. er liest diesen Befehl als einen Pfad
  • Subdomain aussperren
    Eine Subdomain benötigt in Ihrem Root-Verzeichnis eine eigene robots.txt, übergreifend ist dies nicht möglich

Robots.txt und die Suchmaschinenoptimierung

Ausgehend der Suchmaschinenoptimierung (SEO) ist die robots.txt einer der ersten Punkte die in der Prüfung vollzogen werden sollten, da eine optimierte Seite nicht in den Index findet, sofern man Ihr das Crawling untersagt. Gerade im Hinblick auf das Crawl-Budget als auch zur Steuerung der Crawler ist die Robots.txt ein wichtiges Hilfsmittel. Sollte eine Seite dennoch im Index aufgenommen werden, so kann dies anhand der eingehenden Backlinks entstehen, Google hält diese Seite dennoch für relevant, zeigt jedoch kein Snippet an. Achten Sie auch in Sachen Bilder SEO, dass Ihr Bilder-Verzeichnis nicht unbedingt gesperrt wird, denn so verhindern Sie auch hier gute Rankings für Ihre Website.

Weiterführende Links

Robots.txt Spezifikationen: https://developers.google.com/search/reference/robots_txt?hl=de
Robots.txt Generator: https://de.ryte.com/free-tools/robots-txt-generator/