robots.txtとは何ですか? 例を使ってそれを釘付けにするための初心者向けガイド

公開: 2022-03-29

木製のロボットフィギュアが草のパッチの上に立っています。
ああ、robots.txt —大きな意味を持つ1つの小さなファイル。 これは、間違いを犯したくない技術的なSEO要素の1つです。

この記事では、すべてのWebサイトにrobots.txtが必要な理由と、それを作成する方法(SEOに問題を引き起こさない)について説明します。 一般的なFAQに回答し、Webサイトで適切に実行する方法の例を示します。 また、すべての詳細をカバーするダウンロード可能なガイドを提供します。

コンテンツ:

  • robots.txtとは何ですか?
  • robots.txtが重要なのはなぜですか?
  • しかし、robots.txtは必要ですか?
  • robots.txtでどのような問題が発生する可能性がありますか?
  • robots.txtはどのように機能しますか?
  • エラーなしでrobots.txtを作成するためのヒント
  • robots.txtテスター
  • Robots Exclusion Protocol Guide(無料ダウンロード)

robots.txtとは何ですか?

Robots.txtは、ウェブサイトの発行者がウェブサイトのルートに作成して保存するテキストファイルです。 その目的は、検索エンジンボットなどの自動化されたWebクローラーに、Webサイトでクロールしないページを通知することです。 これは、ロボット除外プロトコルとも呼ばれます。

Robots.txtは、除外されたURLが検索用にインデックスに登録されないことを保証するものではありません。 これは、検索エンジンスパイダーが、それらにリンクしている他のWebページを介してそれらのページが存在することを引き続き検出できるためです。 または、ページに過去のインデックスが付けられている場合もあります(詳細は後で説明します)。

Robots.txtは、ボットが除外されたページをクロールしないことも絶対に保証するものではありません。これは任意のシステムだからです。 主要な検索エンジンボットがあなたの指示に従わないことはめったにありません。 しかし、スパムボット、マルウェア、スパイウェアなど、悪いWebロボットである他のロボットは、多くの場合、命令に従わない。

robots.txtファイルは一般公開されていることを忘れないでください。 ドメインURLの最後に/robots.txtを追加するだけで、robots.txtファイルを表示できます(ここにあるもののように)。 したがって、ビジネスに不可欠な情報を含む可能性のあるファイルやフォルダは含めないでください。 また、検索エンジンからプライベートデータや機密データを保護するためにrobots.txtファイルに依存しないでください。

OK、これらの警告が邪魔にならないように、続けましょう…

robots.txtが重要なのはなぜですか?

検索エンジンボットには、Webページをクロールしてインデックスを作成するためのディレクティブがあります。 robots.txtファイルを使用すると、ページ、ディレクトリ、またはサイト全体をクロールから選択的に除外できます。

これは、さまざまな状況で便利です。 robots.txtを使用したい状況は次のとおりです。

  • クロール/インデックス作成されるべきではない特定のページまたはファイル(重要でないページや類似のページなど)をブロックするため
  • 更新中にWebサイトの特定の部分のクロールを停止するには
  • 検索エンジンにサイトマップの場所を伝えるため
  • ビデオ、オーディオファイル、画像、PDFなどのサイト上の特定のファイルを無視し、検索結果に表示されないように検索エンジンに指示するため
  • サーバーがリクエストに圧倒されないようにするため*

* robots.txtを使用して不要なクロールをブロックすることは、サーバーへの負担を軽減し、ボットがより効率的に適切なコンテンツを見つけるのに役立つ1つの方法です。 Googleはここに便利なチャートを提供しています。 また、Bingはcrawl-delayディレクティブをサポートしています。これは、要求が多すぎるのを防ぎ、サーバーを圧倒するのを防ぐのに役立ちます。

もちろん、robots.txtには多くのアプリケーションがあります。この記事では、それらの詳細について説明します。

しかし、robots.txtは必要ですか?

空白の場合でも、すべてのWebサイトにrobots.txtファイルが必要です。 検索エンジンボットがあなたのウェブサイトに来るとき、彼らが最初に探すのはrobots.txtファイルです。

存在しない場合、スパイダーには404(見つかりません)エラーが表示されます。 Googleによると、robots.txtファイルがなくても、Googlebotはサイトにアクセスしてクロールできるとのことですが、404エラーを生成するよりも、ボットがリクエストする最初のファイルをロードする方がよいと考えています。

robots.txtでどのような問題が発生する可能性がありますか?

この単純な小さなファイルは、注意しないとSEOに問題を引き起こす可能性があります。 ここに注意すべきいくつかの状況があります。

1.サイト全体を誤ってブロックする

この落とし穴は、あなたが思っているよりも頻繁に起こります。 開発者はrobots.txtを使用して、サイトの開発中にサイトの新しいセクションまたは再設計されたセクションを非表示にすることができますが、起動後にブロックを解除するのを忘れてしまいます。 それが既存のサイトである場合、この間違いは検索エンジンのランキングを突然低下させる可能性があります。

新しいサイトまたはサイトセクションを立ち上げる準備をしているときに、クロールをオフにできると便利です。 サイトが公開されたら、robots.txtでそのコマンドを変更することを忘れないでください。

2.すでにインデックスが作成されているページを除外する

インデックスが作成されたrobots.txtページをブロックすると、Googleのインデックスでスタックします。

すでに検索エンジンのインデックスにあるページを除外すると、それらはそこにとどまります。 それらを実際にインデックスから削除するには、ページ自体にメタロボットの「noindex」タグを設定し、Googleにクロールして処理させる必要があります。 ページがインデックスから削除されたら、robots.txtでブロックして、Googleが今後ページをリクエストしないようにします。

robots.txtはどのように機能しますか?

robots.txtファイルを作成するには、メモ帳やテキストエディットなどの簡単なアプリケーションを使用できます。 これをrobots.txtというファイル名で保存し、www.domain.com/ robots.txtとしてWebサイトのルートにアップロードします-これはスパイダーが検索する場所です。

単純なrobots.txtファイルは次のようになります。

ユーザーエージェント: *
禁止:/ directory-name /

Googleは、robots.txtの作成に関するヘルプファイルで、robots.txtファイル内のグループ内のさまざまな行が何を意味するかについて適切に説明しています。

各グループは、複数のルールまたはディレクティブ(命令)で構成され、1行に1つのディレクティブがあります。

グループは次の情報を提供します。

  • グループの対象者(ユーザーエージェント)
  • エージェントがアクセスできるディレクトリまたはファイル
  • エージェントがアクセスできないディレクトリまたはファイル

次に、robots.txtファイルのさまざまなディレクティブについて詳しく説明します。

Robots.txtディレクティブ

robots.txt内で使用される一般的な構文は次のとおりです。

ユーザーエージェント

ユーザーエージェントとは、コマンドを実行しているボット(GooglebotやBingbotなど)を指します。 異なるユーザーエージェントに対して複数のディレクティブを設定できます。 ただし、(前のセクションで示したように)*文字を使用する場合、これはすべてのユーザーエージェントを意味するキャッチオールです。 ここでユーザーエージェントのリストを見ることができます。

禁止する

Disallowルールは、Webロボットのアクセスから除外するフォルダ、ファイル、またはディレクトリ全体を指定します。 例は次のとおりです。

ロボットがWebサイト全体をスパイダーできるようにします。

ユーザーエージェント: *
禁止:

Webサイト全体からすべてのロボットを禁止します。

ユーザーエージェント: *
禁止:/

「/myfolder/」および「myfolder」のすべてのサブディレクトリからのすべてのロボットを禁止します。

ユーザーエージェント: *
禁止:/ myfolder /

すべてのロボットが「myfile.html」で始まるファイルにアクセスできないようにします。

ユーザーエージェント: *
禁止:/myfile.html

Googlebotが「my」で始まるファイルやフォルダにアクセスすることを禁止します。

ユーザーエージェント:googlebot
禁止:/ my

許可する

このコマンドはGooglebotにのみ適用可能であり、親ディレクトリまたはウェブページが許可されていない場合でも、サブディレクトリフォルダまたはウェブページにアクセスできることを通知します。

次の例を見てください。page.phpを除く/scripts/folderからのすべてのロボットを禁止します。

禁止:/ scripts /
許可:/scripts/page.php

クロール遅延

これは、ボットにWebページのクロールを待機する時間を指示します。 Webサイトは、サーバーの帯域幅を維持するためにこれを使用する場合があります。 Googlebotはこのコマンドを認識しないため、検索コンソールからクロール速度を変更するように求められます。 可能であればクロール遅延を回避するか、Webサイトのタイムリーで効果的なクロールに大きな影響を与える可能性があるため、注意して使用してください。

サイトマップ

robots.txtファイルでXMLサイトマップを見つける場所を検索エンジンボットに伝えます。 例:

ユーザーエージェント: *
禁止:/ directory-name /
サイトマップ:https://www.domain.com/sitemap.xml

XMLサイトマップの作成の詳細については、次を参照してください: XMLサイトマップとは何ですか。XMLサイトマップを作成するにはどうすればよいですか。

ワイルドカード文字

特定のURLタイプを処理する方法をロボットに指示するのに役立つ2つの文字があります。

キャラクター。 前述のように、1セットのルールで複数のロボットにディレクティブを適用できます。 もう1つの使用法は、URL内の文字のシーケンスを照合して、それらのURLを禁止することです。

たとえば、次のルールは、Googlebotが「ページ」を含むURLにアクセスすることを禁止します。

ユーザーエージェント:googlebot
禁止:/ * page

$文字。 $は、URLの最後にある任意のシーケンスに一致するようにロボットに指示します。 たとえば、Webサイト上のすべてのPDFのクロールをブロックしたい場合があります。

ユーザーエージェント: *
禁止:/*.pdf$

$ワイルドカード文字と*ワイルドカード文字を組み合わせることができ、allowディレクティブとdisallowディレクティブを組み合わせることができることに注意してください。

たとえば、すべてのaspファイルを禁止します。

ユーザーエージェント: *
禁止:/ * asp $

  • 末尾を指定する$が原因で、クエリ文字列またはフォルダを含むファイルは除外されません。
  • aspの前にワイルドカードがあるため除外– /pretty-wasp
  • aspの前にワイルドカードがあるため除外– /login.asp
  • $とクエリ文字列を含むURL(?forgotten-password = 1)–/login.asp?forgotten-password=1のために除外されません

クロールしないvs.インデックスを作成しない

Googleにページのインデックスを作成させたくない場合は、robots.txtファイル以外の解決策があります。 Googleがここで指摘しているように:

クローラーをブロックするには、どの方法を使用する必要がありますか?

  • robots.txt:コンテンツのクロールがサーバーで問題を引き起こしている場合に使用します。 たとえば、無限のカレンダースクリプトのクロールを禁止したい場合があります。 robots.txtを使用してプライベートコンテンツをブロックしたり(代わりにサーバー側認証を使用したり)、正規化を処理しないでください。 URLがインデックスに登録されていないことを確認するには、代わりにrobotsメタタグまたはX-Robots-TagHTTPヘッダーを使用します。
  • robotsメタタグ:個々のHTMLページが検索結果にどのように表示されるかを制御する必要がある場合(または表示されないようにする場合)に使用します。
  • X-Robots-Tag HTTPヘッダー:非HTMLコンテンツが検索結果に表示される方法を制御する必要がある場合(または表示されないようにする場合)に使用します。

そして、ここにグーグルからのより多くのガイダンスがあります:

Googleによるページのクロールをブロックすると、そのページがGoogleのインデックスから削除される可能性があります。
ただし、robots.txt Disallowは、ページが結果に表示されないことを保証するものではありません。Googleは、受信リンクなどの外部情報に基づいて、ページが関連性があると判断する場合があります。 ページのインデックス作成を明示的にブロックする場合は、代わりにnoindexrobotsメタタグまたはX-Robots-TagHTTPヘッダーを使用する必要があります。 この場合、robots.txtのページを禁止しないでください。タグを表示して従うには、ページをクロールする必要があるためです。

エラーなしでrobots.txtを作成するためのヒント

robots.txtファイルを作成するときに覚えておくべきヒントを次に示します。

  • コマンドでは大文字と小文字が区別されます。 たとえば、 Disallowには大文字の「D」が必要です。
  • コマンドでは、常にコロンの後にスペースを含めてください。
  • ディレクトリ全体を除外する場合は、次のように、ディレクトリ名の前後にスラッシュを付けます。/ directory-name /
  • 特に除外されていないすべてのファイルは、ボットがクロールするために含まれます。

robots.txtテスター

常にrobots.txtファイルをテストしてください。 ウェブサイトの発行者がこれを間違えると考えるのが一般的です。これにより、SEO戦略が破壊される可能性があります(重要なページやウェブサイト全体のクロールを禁止する場合など)。

Googleのrobots.txtテスターツールを使用します。 あなたはここでそれについての情報を見つけることができます。

Robots Exclusion Protocol Guide

この記事よりも深く掘り下げる必要がある場合は、 Robots ExclusionProtocolGuideをダウンロードしてください。 これは無料のPDFであり、robots.txtの作成方法に関する多くの詳細を提供するために、参照用に保存して印刷することができます。

まとめ

robots.txtファイルは一見単純なファイルですが、Webサイトの発行者は、ボットがWebサイトをクロールする方法について複雑な指示を与えることができます。 このファイルを正しく取得することは重要です。間違って実行するとSEOプログラムが破壊される可能性があるためです。

robots.txtの使用方法には微妙な違いがあるため、Googleのrobots.txtの紹介を必ずお読みください。

インデックス作成の問題や、SEOの技術的な専門知識を必要とするその他の問題がありますか? 無料の相談とサービスの見積もりをご希望の場合は、今すぐお問い合わせください。