オプティマイザのクロールエラー

公開: 2022-04-17

SISTRIXCrawlerがページ上のすべてのコンテンツを完全にキャプチャできない場合があります。ここでは、最も一般的な理由とその理由を見て、これらの問題の解決策を示します。

SISTRIXクローラー

SISTRIX Toolboxに関連するすべてのアクセスは、SISTRIXクローラーによって実行されます。このクローラーは、2つの異なる特性によって識別できます。1つは、ページにアクセスするたびに送信されるユーザーエージェントです。デフォルトでは、ユーザーエージェントは次のとおりです。

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

一方、SISTRIXクローラーのすべてのIPアドレスは、ドメイン「sistrix.net」のホスト名を指します。たとえば、IP 136.243.92.8のクローラーは、 Reverse-DNS-Entry136-243-92-8.crawler.sistrix.netを返します。

SISTRIX Crawlerは、訪問したページの読み込み速度を継続的に監視し、新しいページが要求される速度をこの速度に調整します。このようにして、Webサーバーが過負荷にならないようにすることができます。詳細については、crawler.sistrix.netをご覧ください。

オプティマイザーでは、オプティマイザークローラーのユーザーエージェントとクロール強度を制御することもできます。これらの設定は、各プロジェクトの[プロジェクト管理]>[クローラー]の[クロール設定]ボックスと[クロール速度]ボックスにあります。

robots.txt

クローラーは、最初にWebサイトにアクセスする前に、ドメインのルートディレクトリと各ホスト名に「robots.txt」という名前のファイルを要求します。クローラーはこのファイルを見つけると、それを分析し、ファイルにある規則と制限を注意深く観察します。「sistrix」のみをカウントするルールは、識別子「*」を持つ一般的なルールと同様に受け入れられます。 robots.txtファイルを使用する場合は、内容を確認して、SISTRIXクローラーが誤って制限されていないことを確認してください。

robots.txtでサイトマップを参照すると、クローラーがクロールベースとしてサイトマップにアクセスします。

クッキー

SISTRIX Crawlerは、ページのチェック中にCookieを保存しません。クローラーがCookieを受け入れることなくページのすべての部分にアクセスできることを確認してください。クローラーのIPは、「Crawler-Settings」の下の「Project-Management」内にあります。

JavaScript

私たちのクローラーはJavaScriptを使用していません。クローラーが分析できるように、すべてのページが静的HTMLページとしてアクセス可能であることを確認してください。

サーバー側の制限

SISTRIX Crawlerは、サーバー側で制限できます。この場合、クローラーは最初にページにアクセスしたときにHTTP-status-code 403（制限付き）のエラーメッセージを受け取ります。その後、このサーバー上のどのページにもアクセスできなくなります。このようなサーバー側の制限は、さまざまなシステムレベルで適用される場合があります。良い出発点は、Apache-webserverの「.htaccess」ファイルをチェックすることです。ここに手がかりが見つからない場合は、プロバイダーまたはホストに連絡する必要があります。残念ながら、これらの制限を自分で無効にすることはできません。

一般的な制限の例

robots.txtの制限

robots.txtがオプティマイザークローラーを制限している場合、「robots.txtがクロールをブロックします」というエラーが発生します。 robots.txtに一般的な制限（User-Agent：*）または特定の制限（User-Agent：Sistrix）があるかどうかを確認してください。プロジェクトのクローラー設定でユーザーエージェントを変更した場合は、それらも確認してください。

少数のページのみ、またはページがクロールされませんでした

クローラーがクロールできるのは少数であるか、ページがまったくない理由は複数あります。オプティマイザープロジェクトで、「分析>エキスパートモード」に移動します。そこには、ドメイン上でクロールされたすべてのHTMLドキュメントの広範なリストがあります。表を少し右にスクロールすると、ステータスコードが表示されます。これにより、このドメインに関連付けられているすべてのページがクロールされていない理由がわかります。

200 ：ステータスコードが200で、他のページがクロールされていない場合、その理由は次のいずれかであることがよくあります。
- 内部リンクがありません：クローラーは、クローラーでブロックされていないすべての内部リンクをたどります。開始ページに内部リンクがあること、およびrobots.txtまたはクローラー設定のいずれかによってターゲットページがクローラーでブロックされている可能性があるかどうかを確認してください。
- Geo-IP設定：すべてのユーザーの対応する言語でWebサイトを表示するために、IPは原産国でチェックされます。すべてのクローラーはドイツに拠点を置いているため、Geo-IPバリアの背後で利用可能なすべての言語コンテンツにアクセスするには、Crawler-IPをホワイトリストに登録する必要があります。
301/302 ：ステータスコード301または302が表示された場合は、リンクが別のドメインにつながっているかどうかを確認してください。たとえば、sistrix.atは、301リダイレクトを介してsistrix.deにつながっています。オプティマイザークローラーは、プロジェクト設定に入力されたドメイン（またはホストまたはディレクトリ）に常に留まります。 sistrix.atのプロジェクトを作成すると、クローラーは301リダイレクトを認識し、エキスパートモードで表示しますが、これは別のドメインであるため、sistrix.deへのリダイレクトには従いません。
403 ：ステータスコード403がすぐに配信される場合、またはクロール可能な数ページ（ステータスコード200）の後に403コードのみが表示される場合は、サーバーがクローラーによるページの要求を制限している理由を確認する必要があります。「サーバー側の制限」のエントリを参照してください。
5xx ：ステータスコード500または5xxがステータスコードフィールドに表示されている場合、これはサーバーエラーのためにサーバーがリクエストを処理できなかったことを意味します。この場合、数分待ってから、「プロジェクト管理」メニューの「クローラーの再起動」ボタンを使用する必要があります。 5xxステータスコードが引き続き表示される場合は、サーバーが過負荷になってページを配信できない理由を確認してください。

GoogleがSISTRIX以外の/より多くのコンテンツを見つけるのはなぜですか？

クローラーは常にプロジェクトの開始ページから始まりますが、クローラー設定でさらに開始ページが追加される場合があります。この時点から、ブロックされていないすべての内部リンクをたどります。これらのリンクされたページでは、まだリクエストしていないものがすべて見つかるまで、すべての内部リンクをたどります。

たとえば、内部でリンクされていないAdWordsランディングページが結果に表示されない場合があります。これは通常、AdWordsトラッキングに影響を与えないようにするために行われます。これは、そのようなページがクローラーに表示されないことを意味します。もちろん、Googleはこれらのページを認識しています。

Googleでプロジェクトのサイトマップを入力すると、robots.txt内でプロジェクトにリンクすることで成果を上げることができます。そうすれば、クローラーはそれをクロールベースとして認識して使用できます。

Google検索のインデックスに登録されたページとオプティマイザーでクロールされたページの数の間に値の違いがある可能性があるもう1つの理由は、Googleの検索インデックスのコンテンツが重複している可能性があります。