Was ist robots.txt? Ein Leitfaden für Anfänger zum Nageln mit Beispielen

Veröffentlicht: 2022-03-29

Roboterfigur aus Holz steht auf einem Rasenstück.
Ah, robots.txt – eine winzig kleine Datei mit großen Auswirkungen. Dies ist ein technisches SEO-Element, das Sie nicht falsch verstehen sollten, Leute.

In diesem Artikel werde ich erklären, warum jede Website eine robots.txt braucht und wie man eine erstellt (ohne Probleme für SEO zu verursachen). Ich beantworte häufig gestellte Fragen und füge Beispiele hinzu, wie Sie es für Ihre Website richtig ausführen können. Ich gebe Ihnen auch einen herunterladbaren Leitfaden, der alle Details abdeckt.

Inhalt:

Was ist robots.txt?
Warum ist robots.txt wichtig?
Aber ist robots.txt notwendig?
Welche Probleme können mit der robots.txt auftreten?
Wie funktioniert robots.txt?
Tipps zum Erstellen einer robots.txt ohne Fehler
Der robots.txt-Tester
Robots Exclusion Protocol Guide (kostenloser Download)

Was ist robots.txt?

Robots.txt ist eine Textdatei, die Website-Publisher erstellen und im Stammverzeichnis ihrer Website speichern. Sein Zweck besteht darin, automatisierten Web-Crawlern wie Suchmaschinen-Bots mitzuteilen, welche Seiten auf der Website nicht gecrawlt werden sollen. Dies wird auch als Robots Exclusion Protocol bezeichnet.

Robots.txt garantiert nicht, dass ausgeschlossene URLs nicht für die Suche indiziert werden. Das liegt daran, dass Suchmaschinen-Spider immer noch herausfinden können, dass diese Seiten über andere Webseiten existieren, die auf sie verlinken. Oder die Seiten können noch aus der Vergangenheit indiziert sein (dazu später mehr).

Robots.txt garantiert auch nicht absolut, dass ein Bot eine ausgeschlossene Seite nicht crawlt, da dies ein freiwilliges System ist. Es kommt selten vor, dass sich die großen Suchmaschinen-Bots nicht an Ihre Anweisungen halten. Aber andere, die schlechte Web-Roboter sind, wie Spambots, Malware und Spyware, befolgen oft keine Befehle.

Denken Sie daran, dass die robots.txt-Datei öffentlich zugänglich ist. Sie können einfach /robots.txt am Ende einer Domain-URL hinzufügen, um ihre robots.txt-Datei anzuzeigen (wie unsere hier). Schließen Sie daher keine Dateien oder Ordner ein, die möglicherweise geschäftskritische Informationen enthalten. Und verlassen Sie sich nicht auf die robots.txt-Datei, um private oder sensible Daten vor Suchmaschinen zu schützen.

OK, mit diesen Einschränkungen aus dem Weg, lass uns weitermachen ...

Warum ist robots.txt wichtig?

Suchmaschinen-Bots haben die Anweisung, Webseiten zu crawlen und zu indizieren. Mit einer robots.txt-Datei können Sie gezielt Seiten, Verzeichnisse oder die gesamte Website vom Crawling ausschließen.

Dies kann in vielen verschiedenen Situationen nützlich sein. Hier sind einige Situationen, in denen Sie Ihre robots.txt verwenden sollten:

Um bestimmte Seiten oder Dateien zu blockieren, die nicht gecrawlt/indiziert werden sollen (z. B. unwichtige oder ähnliche Seiten)
Um bestimmte Teile der Website nicht mehr zu crawlen, während Sie sie aktualisieren
Um den Suchmaschinen den Standort Ihrer Sitemap mitzuteilen
Um den Suchmaschinen mitzuteilen, bestimmte Dateien auf der Website wie Videos, Audiodateien, Bilder, PDFs usw. zu ignorieren und sie nicht in den Suchergebnissen anzuzeigen
Um sicherzustellen, dass Ihr Server nicht mit Anfragen überlastet wird*

* Die Verwendung von robots.txt zum Blockieren unnötigen Crawlings ist eine Möglichkeit, die Belastung Ihres Servers zu verringern und Bots dabei zu helfen, Ihre guten Inhalte effizienter zu finden. Google stellt hier eine praktische Tabelle zur Verfügung. Außerdem unterstützt Bing die Crawl-Delay-Direktive, die dabei helfen kann, zu viele Anfragen zu verhindern und eine Überlastung des Servers zu vermeiden.

Natürlich gibt es viele Anwendungen von robots.txt, und ich werde in diesem Artikel mehr davon skizzieren.

Aber ist robots.txt notwendig?

Jede Website sollte eine robots.txt-Datei haben, auch wenn sie leer ist. Wenn Suchmaschinen-Bots auf Ihre Website kommen, suchen sie als Erstes nach einer robots.txt-Datei.

Wenn keine vorhanden ist, wird den Spinnen ein 404-Fehler (nicht gefunden) angezeigt. Obwohl Google sagt, dass der Googlebot weitermachen und die Website crawlen kann, auch wenn es keine robots.txt-Datei gibt, glauben wir, dass es besser ist, die erste Datei zu haben, die ein Bot lädt, als einen 404-Fehler zu erzeugen.

Welche Probleme können mit robots.txt auftreten?

Diese einfache kleine Datei kann SEO Probleme bereiten, wenn Sie nicht aufpassen. Hier sind ein paar Situationen, auf die Sie achten sollten.

1. Versehentliche Blockierung Ihrer gesamten Website

Dieser Fallstrick passiert öfter als man denkt. Entwickler können robots.txt verwenden, um einen neuen oder neu gestalteten Abschnitt der Website auszublenden, während sie ihn entwickeln, aber dann vergessen, ihn nach dem Start freizugeben . Wenn es sich um eine bestehende Website handelt, kann dieser Fehler dazu führen, dass Suchmaschinen-Rankings plötzlich ins Stocken geraten.

Es ist praktisch, das Crawling deaktivieren zu können, während Sie eine neue Website oder einen neuen Websitebereich für den Start vorbereiten. Denken Sie nur daran, diesen Befehl in Ihrer robots.txt zu ändern, wenn die Website live geht.

2. Ausschließen von Seiten, die bereits indiziert sind

Das Blockieren von robots.txt-Seiten, die indexiert sind, führt dazu, dass sie im Index von Google hängen bleiben.

Wenn Sie Seiten ausschließen, die bereits im Index der Suchmaschine sind, bleiben sie dort. Um sie tatsächlich aus dem Index zu entfernen, sollten Sie auf den Seiten selbst ein Meta-Robots-Tag „noindex“ setzen und das von Google crawlen und verarbeiten lassen. Sobald die Seiten aus dem Index entfernt wurden, blockieren Sie sie in robots.txt, um zu verhindern, dass Google sie in Zukunft anfordert.

Wie funktioniert robots.txt?

Um eine robots.txt-Datei zu erstellen, können Sie eine einfache Anwendung wie Notepad oder TextEdit verwenden. Speichern Sie es mit dem Dateinamen robots.txt und laden Sie es als www.domain.com/robots.txt in das Stammverzeichnis Ihrer Website hoch —— hier werden Spinnen danach suchen.

Eine einfache robots.txt-Datei würde etwa so aussehen:

User-Agent: *
Nicht zulassen: /Verzeichnisname/

Google gibt in seiner Hilfedatei zum Erstellen von robots.txt eine gute Erklärung, was die verschiedenen Zeilen in einer Gruppe innerhalb der robots.txt-Datei bedeuten:

Jede Gruppe besteht aus mehreren Regeln oder Direktiven (Anweisungen), eine Direktive pro Zeile.

Eine Gruppe gibt folgende Informationen:
Für wen die Gruppe gilt (der Benutzeragent)
Auf welche Verzeichnisse oder Dateien dieser Agent zugreifen kann
Auf welche Verzeichnisse oder Dateien der Agent nicht zugreifen kann

Ich werde als Nächstes mehr über die verschiedenen Anweisungen in einer robots.txt-Datei erklären.

Robots.txt-Direktiven

Die in robots.txt verwendete allgemeine Syntax umfasst Folgendes:

User-Agent

User-Agent bezieht sich auf den Bot, in dem Sie die Befehle geben (z. B. Googlebot oder Bingbot). Sie können mehrere Anweisungen für verschiedene Benutzeragenten haben. Aber wenn Sie das *-Zeichen verwenden (wie im vorherigen Abschnitt gezeigt), ist das ein Sammelbegriff, der alle Benutzerprogramme bedeutet. Sie können hier eine Liste der Benutzeragenten sehen.

Nicht zulassen

Die Disallow-Regel gibt den Ordner, die Datei oder sogar ein ganzes Verzeichnis an, das vom Zugriff von Web-Robotern ausgeschlossen werden soll. Beispiele hierfür sind:

Erlauben Sie Robotern, die gesamte Website zu durchsuchen:

User-Agent: *
Nicht zulassen:

Alle Roboter von der gesamten Website verbieten:

User-Agent: *
Nicht zulassen: /

Verbiete alle Robots von „/myfolder/“ und allen Unterverzeichnissen von „myfolder“:

User-Agent: *
Nicht zulassen: /meinordner/

Allen Robotern den Zugriff auf Dateien verbieten, die mit „myfile.html“ beginnen:

User-Agent: *
Nicht zulassen: /myfile.html

Verbieten Sie dem Googlebot den Zugriff auf Dateien und Ordner, die mit „my“ beginnen:

User-Agent: googlebot
Nicht zulassen: /my

Erlauben

Dieser Befehl gilt nur für den Googlebot und teilt ihm mit, dass er auf einen Unterverzeichnisordner oder eine Webseite zugreifen kann, selbst wenn das übergeordnete Verzeichnis oder die übergeordnete Webseite nicht zugelassen ist.

Nehmen Sie das folgende Beispiel: Verbieten Sie alle Robots aus dem Ordner /scripts/ außer page.php:

Nicht zulassen: /scripts/
Zulassen: /scripts/page.php

Crawl-Verzögerung

Dies teilt Bots mit, wie lange sie warten müssen, um eine Webseite zu crawlen. Websites können dies verwenden, um Serverbandbreite zu sparen. Der Googlebot erkennt diesen Befehl nicht und Google fordert Sie auf, die Crawling-Rate über die Search Console zu ändern. Vermeiden Sie nach Möglichkeit Crawling-Verzögerungen oder verwenden Sie sie mit Vorsicht, da sie das rechtzeitige und effektive Crawlen einer Website erheblich beeinträchtigen können.

Seitenverzeichnis

Teilen Sie Suchmaschinen-Bots mit, wo sie Ihre XML-Sitemap in Ihrer robots.txt-Datei finden können. Beispiel:

User-Agent: *
Nicht zulassen: /Verzeichnisname/
Sitemap: https://www.domain.com/sitemap.xml

Weitere Informationen zum Erstellen von XML-Sitemaps finden Sie hier: Was ist eine XML-Sitemap und wie erstelle ich eine?

Platzhalterzeichen

Es gibt zwei Zeichen, die Robotern dabei helfen können, bestimmte URL-Typen zu handhaben:

Der Charakter. Wie bereits erwähnt, kann es mit einem Regelsatz Anweisungen auf mehrere Roboter anwenden. Die andere Verwendung besteht darin, eine Zeichenfolge in einer URL abzugleichen, um diese URLs zu verbieten.

Beispielsweise würde die folgende Regel dem Googlebot verbieten, auf URLs zuzugreifen, die „Seite“ enthalten:

User-Agent: googlebot
Nicht zulassen: /*Seite

Das $-Zeichen. Das $ weist Robots an, jede Sequenz am Ende einer URL abzugleichen. Beispielsweise möchten Sie möglicherweise das Crawlen aller PDFs auf der Website blockieren:

User-Agent: *
Nicht zulassen: /*.pdf$

Beachten Sie, dass Sie $- und *-Platzhalterzeichen kombinieren können, und sie können für Allow- und Disallow-Direktiven kombiniert werden.

Beispiel: Alle Asp-Dateien verbieten:

User-Agent: *
Nicht zulassen: /*asp$

Dadurch werden Dateien mit Abfragezeichenfolgen oder Ordner aufgrund des $, das das Ende kennzeichnet, nicht ausgeschlossen
Ausgeschlossen aufgrund des Platzhalters vor asp – /pretty-wasp
Ausgeschlossen aufgrund des Platzhalters vor asp – /login.asp
Nicht ausgeschlossen aufgrund des $ und der URL inklusive Abfragestring (?forgotten-password=1) – /login.asp?forgotten-password=1

Nicht crawlen vs. nicht indexieren

Wenn Sie nicht möchten, dass Google eine Seite indexiert, gibt es dafür andere Abhilfen als die robots.txt-Datei. Wie Google hier betont:

Welche Methode sollte ich verwenden, um Crawler zu blockieren?
robots.txt: Verwenden Sie es, wenn das Crawlen Ihrer Inhalte Probleme auf Ihrem Server verursacht. Beispielsweise möchten Sie möglicherweise das Crawlen von unendlichen Kalenderskripten verbieten. Sie sollten die robots.txt nicht verwenden, um private Inhalte zu blockieren (verwenden Sie stattdessen die serverseitige Authentifizierung) oder die Kanonisierung handhaben. Um sicherzustellen, dass eine URL nicht indexiert wird, verwenden Sie stattdessen das Robots-Meta-Tag oder den X-Robots-Tag-HTTP-Header.
Robots-Meta-Tag: Verwenden Sie es, wenn Sie steuern müssen, wie eine einzelne HTML-Seite in den Suchergebnissen angezeigt wird (oder um sicherzustellen, dass sie nicht angezeigt wird).
X-Robots-Tag-HTTP-Header: Verwenden Sie ihn, wenn Sie steuern müssen, wie Nicht-HTML-Inhalte in den Suchergebnissen angezeigt werden (oder um sicherzustellen, dass sie nicht angezeigt werden).

Und hier ist eine weitere Anleitung von Google:

Wenn Google daran gehindert wird, eine Seite zu crawlen, wird die Seite wahrscheinlich aus dem Google-Index entfernt.
Robots.txt Disallow garantiert jedoch nicht, dass eine Seite nicht in den Suchergebnissen angezeigt wird: Google kann immer noch auf der Grundlage externer Informationen wie eingehender Links entscheiden, dass sie relevant ist. Wenn Sie explizit verhindern möchten, dass eine Seite indexiert wird, sollten Sie stattdessen das Robots-Meta-Tag noindex oder den HTTP-Header X-Robots-Tag verwenden. In diesem Fall sollten Sie die Seite in robots.txt nicht verbieten, da die Seite gecrawlt werden muss, damit das Tag gesehen und befolgt werden kann.

Tipps zum Erstellen einer robots.txt ohne Fehler

Hier sind einige Tipps, die Sie beim Erstellen Ihrer robots.txt-Datei beachten sollten:

Bei Befehlen wird zwischen Groß- und Kleinschreibung unterschieden. Sie benötigen zum Beispiel ein großes „D“ in Disallow .
Fügen Sie immer ein Leerzeichen nach dem Doppelpunkt in den Befehl ein.
Wenn Sie ein ganzes Verzeichnis ausschließen, setzen Sie einen Schrägstrich vor und nach dem Verzeichnisnamen, etwa so: /Verzeichnisname/
Alle Dateien, die nicht ausdrücklich ausgeschlossen sind, werden von Bots gecrawlt.

Der robots.txt-Tester

Testen Sie immer Ihre robots.txt-Datei. Es kommt häufiger vor, dass Sie denken, dass Website-Publisher dies falsch machen, was Ihre SEO-Strategie zerstören kann (z. B. wenn Sie das Crawlen wichtiger Seiten oder der gesamten Website untersagen).

Verwenden Sie das robots.txt-Tester-Tool von Google. Informationen dazu finden Sie hier.

Leitfaden zum Ausschlussprotokoll für Roboter

Wenn Sie tiefer in diesen Artikel eintauchen möchten, laden Sie unseren Robots Exclusion Protocol Guide herunter. Es ist eine kostenlose PDF-Datei, die Sie zu Referenzzwecken speichern und ausdrucken können, um Ihnen viele Einzelheiten zum Erstellen Ihrer robots.txt-Datei zu geben.

Abschließende Gedanken

Die robots.txt-Datei ist eine scheinbar einfache Datei, ermöglicht es Website-Publishern jedoch, komplexe Anweisungen zu geben, wie Bots eine Website crawlen sollen. Es ist entscheidend, diese Datei richtig zu machen, da sie Ihr SEO-Programm auslöschen könnte, wenn sie falsch gemacht wird.

Da es so viele Nuancen bei der Verwendung von robots.txt gibt, sollten Sie unbedingt Googles Einführung in robots.txt lesen.

Haben Sie Indexierungsprobleme oder andere Probleme, die technisches SEO-Know-how erfordern? Wenn Sie ein kostenloses Beratungs- und Serviceangebot wünschen, kontaktieren Sie uns noch heute.