Kriechende Fehler im Optimierer

Veröffentlicht: 2022-04-17

Es kann vorkommen, dass der SISTRIX Crawler nicht alle Inhalte einer Seite vollständig erfassen kann. Hier werfen wir einen Blick auf die häufigsten Gründe sowie die Gründe und zeigen Ihnen Lösungen für diese Probleme.

Der SISTRIX-Crawler

Alle Zugriffe im Zusammenhang mit der SISTRIX Toolbox werden vom SISTRIX Crawler durchgeführt. Dieser Crawler ist an zwei verschiedenen Merkmalen zu erkennen: Zum einen ist es der User-Agent, der bei jedem Seitenaufruf übermittelt wird. Standardmäßig ist der User-Agent:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

Andererseits verweisen alle IP-Adressen des SISTRIX Crawlers auf den Hostnamen der Domain „sistrix.net“. Unser Crawler auf der IP 136.243.92.8 würde beispielsweise den Reverse-DNS-Eintrag 136-243-92-8.crawler.sistrix.net zurückgeben .

Der SISTRIX Crawler überwacht kontinuierlich die Ladegeschwindigkeit der besuchten Seiten und passt die Geschwindigkeit, mit der neue Seiten angefordert werden, dieser Rate an. Auf diese Weise können wir sicherstellen, dass wir den Webserver nicht überlasten. Weitere Informationen finden Sie unter crawler.sistrix.net.

Im Optimizer haben Sie auch die Möglichkeit, den User-Agent und die Crawl-Intensität des Optimizer Crawlers zu steuern. Diese Einstellungen finden Sie in jedem Projekt unter „Projekt-Management > Crawler“ in den Kästchen „Crawling-Einstellungen“ und „Crawling-Geschwindigkeit“.

robots.txt

Vor dem ersten Zugriff auf eine Website fordert unser Crawler eine Datei mit dem Namen „robots.txt“ im Stammverzeichnis sowie auf jedem Hostnamen der Domain an. Wenn der Crawler diese Datei findet, analysiert er sie und beachtet genau die in der Datei gefundenen Regeln und Einschränkungen. Regeln, die nur für „sistrix“ gelten, werden ebenso akzeptiert wie allgemeine Regeln mit der Kennung „*“. Sollten Sie eine robots.txt-Datei verwenden, bitten wir Sie, den Inhalt zu überprüfen, um sicherzustellen, dass der SISTRIX-Crawler nicht versehentlich eingeschränkt wurde.

Wenn Sie in der robots.txt auf eine Sitemap verweisen, greift unser Crawler darauf als Crawl-Basis zu.

Kekse

Der SISTRIX Crawler speichert keine Cookies, während er eine Seite prüft. Bitte stellen Sie sicher, dass unser Crawler auf alle Teile einer Seite zugreifen kann, ohne Cookies akzeptieren zu müssen. Die IP unseres Crawlers finden Sie im „Projekt-Management“ unter „Crawler-Einstellungen“.

JavaScript

Unser Crawler verwendet kein JavaScript. Bitte stellen Sie sicher, dass alle Seiten als statische HTML-Seiten zugänglich sind, damit unser Crawler sie analysieren kann.

Serverseitige Einschränkungen

Der SISTRIX Crawler kann serverseitig eingeschränkt werden. In diesem Fall erhält unser Crawler beim ersten Aufruf einer Seite eine Fehlermeldung mit dem HTTP-Status-Code 403 (eingeschränkt). Danach kann er auf keine Seiten auf diesem Server zugreifen. Eine solche serverseitige Beschränkung kann auf verschiedenen Systemebenen eingerichtet werden. Ein guter Ausgangspunkt wäre, die „.htaccess“-Datei des Apache-Webservers zu überprüfen. Finden sich hier keine Hinweise, sollten Sie sich an den Anbieter bzw. Gastgeber wenden. Leider können wir diese Einschränkungen nicht selbst deaktivieren.

Beispiele für allgemeine Einschränkungen

robots.txt-Einschränkungen

Wenn die robots.txt unseren Optimizer-Crawler einschränkt, erhalten Sie die Fehlermeldung „robots.txt blockiert Crawling“. Bitte überprüfen Sie, ob es allgemeine (User-Agent: *) oder spezifische (User-Agent: Sistrix) Einschränkungen in Ihrer robots.txt gibt. Wenn Sie Ihren User-Agent in den Crawler-Einstellungen Ihres Projekts geändert haben, überprüfen Sie dies bitte auch.

Es wurden nur wenige oder gar keine Seiten gecrawlt

Es gibt mehrere Gründe, warum unser Crawler nur eine kleine Anzahl oder gar keine Seiten crawlen konnte. Gehen Sie im Optimizer-Projekt auf „Analyse > Expertenmodus“. Dort finden Sie eine umfangreiche Liste aller gecrawlten HTML-Dokumente auf der Domain. Den Statuscode finden Sie, indem Sie in der Tabelle etwas nach rechts scrollen. Dies sollte Ihnen sagen, warum nicht alle mit dieser Domain verknüpften Seiten gecrawlt wurden.

200 : Wenn der Statuscode 200 ist, aber keine anderen Seiten gecrawlt wurden, ist der Grund oft einer der folgenden:
- Fehlende interne Links : Unser Crawler folgt allen internen Links, die nicht für den Crawler gesperrt sind. Bitte überprüfen Sie, ob auf der Startseite interne Links vorhanden sind und ob die Zielseiten möglicherweise durch die robots.txt oder die Crawler-Einstellungen für unseren Crawler blockiert sind.
- Geo-IP-Einstellungen : Um die Website in der entsprechenden Sprache jedes Benutzers darzustellen, wird die IP auf das Herkunftsland überprüft. Alle unsere Crawler sind in Deutschland ansässig, was es notwendig macht, unsere Crawler-IP auf die Whitelist zu setzen, wenn Sie möchten, dass sie auf alle Sprachinhalte zugreifen kann, die hinter einer Geo-IP-Barriere verfügbar sind.
301 / 302 : Erscheint der Statuscode 301 oder 302, prüfen Sie bitte, ob der Link auf eine andere Domain führt – zum Beispiel sistrix.at, die über eine 301-Weiterleitung auf sistrix.de führt. Der Optimizer-Crawler bleibt immer auf der in den Projekteinstellungen eingetragenen Domain (bzw. dem Host oder Verzeichnis). Wenn ich ein Projekt für sistrix.at erstelle, würde unser Crawler zwar die 301-Weiterleitung erkennen und im Expertenmodus anzeigen, aber der Weiterleitung auf sistrix.de nicht folgen, da dies eine andere Domain ist.
403 : Wenn der Statuscode 403 sofort geliefert wird, oder wenn nach einigen crawlbaren Seiten (Statuscode 200) nur 403-Codes angezeigt werden, sollten Sie überprüfen, warum der Server unseren Crawler daran hindert, die Seiten anzufordern. Bitte beachten Sie den Eintrag „Serverseitige Beschränkungen“.
5xx : Wenn im Statuscodefeld ein Statuscode 500 oder 5xx angezeigt wird, bedeutet dies, dass der Server unsere Anfrage aufgrund eines Serverfehlers nicht bearbeiten konnte. In diesem Fall sollten Sie einige Minuten warten und dann den „Crawler neu starten“-Button im „Projekt-Management“-Menü verwenden. Wenn der 5xx-Statuscode weiterhin angezeigt wird, überprüfen Sie, warum der Server überlastet ist und die Seiten nicht zustellen kann.

Warum findet Google andere/mehr Inhalte als SISTRIX?

Unser Crawler beginnt immer mit der Startseite des Projekts, wobei in den Crawler-Einstellungen weitere Startseiten hinzugefügt werden können. Ab diesem Zeitpunkt folgen wir allen nicht gesperrten internen Links. Auf diesen verlinkten Seiten werden wir allen internen Links folgen, bis wir alle diejenigen finden, die wir noch nicht angefordert haben.

Was passieren kann ist, dass beispielsweise nicht intern verlinkte AdWords-Landingpages nicht in den Ergebnissen auftauchen. Dies geschieht in der Regel, damit sie das AdWords-Tracking nicht beeinflussen. Das bedeutet, dass solche Seiten für unseren Crawler unsichtbar sind. Google sind diese Seiten natürlich bekannt.

Wenn Sie eine Sitemap unseres Projekts bei Google eingeben, kann es sich lohnen, diese innerhalb der robots.txt zu verlinken. Auf diese Weise kann unser Crawler es erkennen und als Crawl-Basis verwenden.

Ein weiterer Grund, warum es zu unterschiedlichen Werten zwischen den indexierten Seiten der Google-Suche und der Anzahl der gecrawlten Seiten in Ihrem Optimierer kommen kann, kann doppelter Inhalt im Suchindex von Google sein.