Robots.txt-Dateien: Warum sie für SEO so wichtig sind

Veröffentlicht: 2022-05-05

Robots.txt-Dateien, auch als Robot Exclusion Protocol bekannt, sind ein unverzichtbares Tool für SEO. Diese Textdatei informiert Suchmaschinen-Crawler darüber, welche Seiten aufgerufen und anschließend indexiert werden können. Robots.txt-Dateien verhindern auch, dass Crawler auf bestimmte Teile Ihrer Website zugreifen. Dies ist nützlich, wenn Sie verhindern möchten, dass nicht öffentliche Seiten indiziert werden. Dies können Seiten sein, die noch entwickelt werden, oder Online-Anmeldeseiten. Wenn Ihre Website besonders umfangreich ist, ist Robots.txt auch hilfreich, um sicherzustellen, dass Ihre relevantesten Seiten indexiert werden.

Indem Sie Ihre Anfragen in einer Robots.txt-Datei zusammenfassen, können Suchmaschinen immer nur auf die gewünschten Seiten zugreifen. Dies bietet Ihnen nicht nur ein hohes Maß an Privatsphäre, sondern maximiert auch Ihr Crawl-Budget. Möchten Sie mehr erfahren? Lesen Sie weiter für eine ausführliche Anleitung, warum Robots.txt-Dateien für SEO unerlässlich sind.

Robots.txt erklärt

Große Suchmaschinen wie Google und Bing senden sogenannte „Crawler“ aus, um Websites zu durchsuchen. Diese Crawler, die auch als „Roboter“ oder „Spider“ bekannt sind, liefern Suchmaschinen wichtige Informationen, damit Ihre Website auf den Ergebnisseiten von Suchmaschinen (SERPs) ordnungsgemäß indexiert werden kann. Dies erleichtert es Internetnutzern, Ihre Website zu entdecken, indem sie Suchanfragen in Suchmaschinen eingeben. Eine Robots.txt-Datei beschreibt klar, welche Seiten durchsucht werden können und welche Seiten Roboter vermeiden sollten.

Möchten Sie alle Suchmaschinen-Crawler daran hindern, auf Ihre Kunden-Login-Seite zuzugreifen? Der folgende Robots.txt-Befehl kann verwendet werden:

User-Agent: *
Nicht zulassen: websitename.com/customer-login

Sie können Befehle auch so anpassen, dass sie sich auf eine bestimmte Suchmaschine konzentrieren. Wenn Sie nur verhindern möchten, dass Google-Crawler auf Ihre Seiten zugreifen, könnte der folgende Befehl verwendet werden:

User-Agent: Googlebot
Nicht zulassen: websitename.com/customer-login

Um Ihnen das Leben zu erleichtern, können Sie beliebig viele Seiten zur Sperrliste hinzufügen. Sobald Sie eine Robots.txt-Datei erstellt haben, sollte sie im Hauptverzeichnis Ihrer Website abgelegt werden. Wenn Sie die obigen Beispiele als Richtlinie verwenden, sollte die URL einer Robots.txt-Datei etwa so lauten:

https://www.websitename.com/robots.txt

Warum den Zugriff auf Webseiten blockieren?

Das Blockieren des Zugriffs auf bestimmte Webseiten wird Ihre SEO-Bemühungen unterstützen. Daher müssen Sie verstehen, wann Sie eine Robots.txt-Datei ins Spiel bringen. Wenn Ihre Website doppelte Seiten enthält, dürfen Sie Crawlern nicht erlauben, diese zu indizieren. Wieso den? Die Indizierung von Duplicate Content kann sich nachteilig auf Ihre SEO auswirken.

Obwohl Google und andere Suchmaschinen Ihnen keine Strafen für doppelte Inhalte auferlegen, kann eine unnötige Indizierung doppelter Seiten es Ihren wertvollsten Seiten erschweren, einen guten Rang einzunehmen.

Robots.txt-Dateien machen es auch einfacher, das Beste aus Ihrem Crawl-Budget herauszuholen. Bot-Crawling ist ein wertvolles Gut, das Ihre SEO-Leistung steigern kann. Gleichzeitige Crawls können sich jedoch für kleinere Websites als überwältigend erweisen. Größere Websites oder Websites mit hoher Autorität haben in der Regel eine größere Crawling-Zulässigkeit.

Weniger etablierte Websites müssen jedoch mit relativ bescheidenen Budgets arbeiten. Durch die Installation von Robots.txt können Sie die wichtigsten Seiten Ihrer Website priorisieren und sicherstellen, dass Ihr Crawl-Budget nicht für sekundäre Seiten und überflüssige Inhalte verschwendet wird.

Es kann auch Webseiten geben, auf die Sie nicht möchten, dass alle Benutzer darauf zugreifen können. Wenn Ihre Website einen Service anbietet oder einen Verkaufstrichter enthält, gibt es zahlreiche Seiten, die Sie Kunden erst anzeigen möchten, nachdem sie eine bestimmte Aktion ausgeführt haben. Wenn Sie diese Aktionen mit Rabattcodes oder Treueprämien anregen, möchten Sie, dass nur Benutzer darauf zugreifen können, die eine Kundenreise abgeschlossen haben. Indem Sie diese Seiten blockieren, verhindern Sie, dass gelegentliche Benutzer über Suchmaschinenabfragen auf diese Informationen stoßen.

Robots.txt-Dateien sind auch nützlich, um sicherzustellen, dass Suchmaschinen bestimmtes Material, wie z. B. private Bilder, nicht indizieren. Sie können auch verwendet werden, um den Standort einer Sitemap zu lokalisieren und zu verhindern, dass Ihre Server überlastet werden, wenn Bots versuchen, Bilder gleichzeitig zu indizieren.

So erstellen Sie eine Robots.txt-Datei

Nachdem wir nun die Gründe untersucht haben, warum Sie möglicherweise eine Robots.txt-Datei benötigen, können wir untersuchen, wie eine solche erstellt wird. Der einfachste Weg, eine Robots.txt-Datei zu erstellen, ist die Verwendung von Google Webmaster Tools. Sobald Sie ein Konto erstellt haben, klicken Sie auf „Crawler-Zugriff“ und gehen Sie dann zu „Site-Konfiguration“. Sobald Sie auf diesen Teil des Menüs zugegriffen haben, klicken Sie auf „robots.txt generieren“. Mit diesem Tool können Sie schnell eine Robots.txt-Datei erstellen.

Um Crawler-Zugriffsseiten zu blockieren, wählen Sie einfach die Option „Blockieren“. Sie können dann „User-Agent“ auswählen, um anzugeben, welche Suchmaschinen-Crawler Sie blockieren möchten. Jetzt können Sie die Site-Verzeichnisse eingeben, auf die Sie den Zugriff beschränken möchten. Anstatt die gesamte URL der Zielseite einzugeben, müssen Sie nur die Erweiterung in „Verzeichnisse und Dateien“ hinzufügen. Mit anderen Worten, wenn Sie den Crawler-Zugriff auf Ihre Kunden-Anmeldeseite blockieren möchten, geben Sie einfach Folgendes ein:

/Kundenlogin

Sobald Sie festgelegt haben, welche Seiten Sie blockieren möchten, können Sie auf „Regel hinzufügen“ klicken, um Robots.txt zu generieren. Die generierte Robots.txt bietet Ihnen auch die Option, Ausnahmen zuzulassen, was nützlich ist, wenn Sie nur bestimmte Suchmaschinen daran hindern möchten, Ihre Website zu indizieren.

Wenn alles fertig ist, können Sie jetzt auf das Download-Symbol klicken, um eine endgültige Robots.txt-Datei zu erstellen.

Wie installiere ich eine Robots.txt-Datei?

Jetzt haben Sie all die harte Arbeit erledigt, es ist Zeit, Ihre Robots.txt-Datei zu installieren. Sie können dies selbst tun, indem Sie Ihre Datei mit einer FTP-Lösung hochladen. Wenn Ihre Programmierkenntnisse jedoch einige Lücken aufweisen, ist es möglicherweise am besten, die Dienste eines Experten in Anspruch zu nehmen. Wenn Sie die Aufgabe einem Programmierer zuweisen, stellen Sie sicher, dass Sie genau angeben, welche Seiten blockiert werden sollen, und geben Sie alle Ausnahmen an.

Robots.txt-Dateien: Wichtige Dinge, die Sie sich merken sollten

Um sicherzustellen, dass Sie Robots.txt-Dateien optimal nutzen, sollten Sie einige Best Practices beachten. Es mag offensichtlich erscheinen, aber stellen Sie sicher, dass Sie eine Bestandsaufnahme Ihrer Seiten machen und den Zugriff auf hochwertige Seiten, die gecrawlt und indexiert werden sollen, nicht blockieren.

Obwohl sich viele Benutzer an Robots.txt wenden, um zu verhindern, dass vertrauliche Informationen auf den Ergebnisseiten von Suchmaschinen angezeigt werden, ist dies nicht der beste Weg, um solches Material aus der Öffentlichkeit herauszuhalten. Wenn andere Seiten auf die von Ihnen blockierten Seiten verlinken, besteht immer die Möglichkeit, dass sie indexiert werden. Verwenden Sie einen alternativen Ansatz, um vertrauliche Informationen nicht sichtbar zu machen.

Abschließende Gedanken

Um sicherzustellen, dass Ihre Robots.txt-Datei Ihre SEO nicht negativ beeinflusst, müssen Sie sie auf dem neuesten Stand halten. Jedes Mal, wenn Sie Ihrer Website neue Seiten, Verzeichnisse oder Dateien hinzufügen, müssen Sie Ihre Robots.txt-Datei entsprechend aktualisieren. Obwohl dies nur erforderlich ist, wenn Sie Inhalte hinzufügen, die eingeschränkt werden müssen, ist die Überarbeitung Ihrer Robots.txt-Datei eine bewährte Vorgehensweise. Es garantiert nicht nur, dass Ihre Website-Inhalte so sicher wie möglich sind, sondern kann auch Ihrer SEO-Strategie zugute kommen.

Durch die effektive Implementierung von Robots.txt können Sie Ihr Crawl-Budget maximieren und Ihre wichtigsten Seiten priorisieren, die Indexierung doppelter Inhalte verhindern und die Wahrscheinlichkeit minimieren, dass gleichzeitige Crawls Ihre Server zum Stillstand zwingen.

Autor Bio:

Greg Tuohy ist Geschäftsführer von Docutec, einem Anbieter von Unternehmensdruckern und Büroautomatisierungssoftware. Greg wurde im Juni 2011 zum Geschäftsführer ernannt und ist die treibende Kraft hinter dem Team der Cantec Group. Unmittelbar nach Abschluss eines Wissenschaftsstudiums an der UCC im Jahr 1995 trat Greg in das Kopierer-/Druckergeschäft der Familie ein. Docutec stellt auch Drucker für Einfamilienhäuser wie Multifunktionsdrucker her.