SEO のための正規表現: 正規表現の 12 の使用法

公開: 2024-06-07

Web サイト開発者とコンテンツ マーケティング担当者は、データが金であることを知っています。 これは、デジタル戦略を刷新または洗練するために使用する深い洞察の基礎を提供します。

しかし、データを最大限に活用するにはどうすればよいでしょうか?

おそらく Google Search Console をお持ちで、その主要なクエリ機能である「等しい」と「含む」をご存知でしょう。 これらにより、戦略的な洞察を備えた有意義なレポートを作成するために使用できる方法でデータ情報を集約する方法が得られます。

「等しい」や「含む」などの組み込みコネクタよりも強力な検索を実行できたらどうでしょうか? それが、実装と使用が簡単なコーディング ツールである RegEx の約束です。

ここでは、RegEx の基本、それがどのように異なるのか、SEO 戦略を向上させるために RegEx を使用する方法について説明します。

正規表現とは何ですか?またどのようなものですか?

RegEx は開発者の間で長い間公然の秘密でした。 データの検索と構造化の方法に非常に柔軟な柔軟性があり、組み込みの Google Search Console ツールだけでは得られない詳細な分析情報を含むレポートをカスタマイズできます。

RegEx は正規表現の略です。 検索機能として機能するコーディングツールです。 最近テキスト文書を使用したほとんどの人がおそらく使用したことがある「検索と置換」は、実際には正規表現です。

実際、RegEx は、Microsoft Word、メモ帳、Google 検索エンジンなど、人々が毎日使用するツールを含め、あらゆる場所に存在します。 そのため、これはコードであり、多くのプログラミング言語にシームレスに統合されていますが、その可能性と機能は容易に理解できます。

SEO 戦略の策定におけるメリットは非常に大きく、特に検索パターンを特定し、Google Search Console の表面下に隠れているデータにアクセスできるようになります。

SEO における RegEx について説明する前に、RegEx 文字列とそれがどのようなものかを定義することに少し時間を取ってみましょう。 簡単な例は、次の一連の文字です。

  • /t[アイオウ]+/g

この正規表現は、文字「t」の後に母音が続くすべてのインスタンスを検索します。 このパターンを次の文に適用すると想像してみましょう。

  • 私はグレッグのテーブルに座りながらトーストを食べました。

RegEx は次の結果を取得します。

  • 私はグレッグのテーブル座りながら乾杯しました

これは、RegEx を適用した比較的単純な例です。 より長く複雑な文字列が含まれる場合があります。 特定の記号は、例の「t」の後に続く文字の範囲を識別する角括弧など、RegEx がどのように機能するかについての「指示」も提供します。 疑問符やアスタリスクを含む句読点も正規表現文字列の基本です。

このブログ投稿では、RegEx を使用して SEO レポートと技術的な SEO 監査を最適化する前に知っておくことが重要な RegEx フィルターの 1 つの属性に焦点を当てます。 それが、正規表現一致における「貪欲」と「怠惰」の違いです。 RegEx では、「貪欲な」正規表現パターンまたは「怠惰な」正規表現パターンを選択するのに役立つ量指定子コードを適用できます。

貪欲な正規表現パターン

RegEx 検索文字列に一致する可能性があるものは、RegEx フィルタの正確なパラメータに応じて変化することは簡単にわかります。 この例では、式はパターンに適合する可能な限り長い検索文字列を選択しました。 「t」の後に任意の母音が続くと、正規表現パターンにより、「ate」の「te」と「toast」の「toa」の両方が検出される結果が得られます。

この正規表現パターンは可能な限り長い文字列を探すため、「貪欲」として知られています。 実際、「toast」の結果は単なる「toa」ではなく、より正確には「to」と「toa」になります。 RegEx パターンの一致を完全に理解するには、このような結果が得られるという事実を知っておくことが重要です。

怠惰なパターン

遅延パターンでは、RegEx は文字列との最短一致を検索します。 この例では、遅延 RegEx パターンは、別の結果として「toast」内の「toa」を選択しなくなりました。 「to」は RegEx クエリに一致する最短の文字列であるため、「to」で終わります。

文字「y」、その後に任意の数の文字、その後に「l」が続く文字を検索する RegEx 検索の例を使用してみましょう。

  • 貪欲なパターンでは、正規表現は、これらの単語を含むデータ セットから「yell」と「 yellow」を検出します。
  • 遅延パターンでは、正規表現は同じデータセット内の「yel」のみを選択します。

正規表現を使用する利点は何ですか?

RegEx は、検索データに関するレポートを作成するための強力なツールです。 デジタル アクティビティを深く調べることで、コンテンツの最適化やキーワード調査などに使用できる洞察を活用できます。 Google Analytics に飛び込む場合、RegEx はプラットフォームの単純な入門機能を超えて役立ちます。

Google Analytics と正規表現が SEO のためにどのように連携するのか、また Google 正規表現検索がどのようにデータを最適化できるのかを詳しく見ていきましょう。

検索エンジン最適化のための RegEx の使用法トップ 12

RegEx には明らかな用途があります。たとえば、重複コンテンツの識別や、検索クエリと一致する可能性が最も高い最適なアンカー テキストの検索などです。 しかし、正規表現が SEO に役立つ方法は少なくとも 12 通りあります。 ここでは、正規表現の最適な使用法をいくつか紹介します。

1. URLの分析

RegEx を使用して URL を分析するのは奇妙に思えるかもしれませんが、電子商取引のシナリオを考えてみましょう。すべての商品ページに対応する個別の URL が数千ある可能性があります。 コンバージョン データを詳しく調べて、消費者のアクティビティに対応する特定の URL をフィルタリングできる機能は非常に貴重です。

このデータを使用して、顧客が閲覧して応答する URL とそうでない URL を識別できます。 RegEx を使用すると、URL 内で製品カテゴリや名前などの文字列を使用して、その URL グループのアクティビティを取得できます。 また、スマート URL 分析を実行して、ユーザーがアクセスする URL のリストを追跡して、カスタマー ジャーニーを明確に把握することもできます。

2. キーワード分析の実施

RegEx を使用すると、ユーザーがサイトを見つけてアクセスするために検索および使用するキーワードをさらに詳しく調べることができます。 これは、ニッチな検索、コンバージョン率の高い文字列、およびコンバージョンを促進するキー フレーズを特定し、コンテンツ戦略で活用できる強力なツールです。

RegEx を使用すると、貪欲パターンまたは遅延パターンを使用して、「含む」または「等しい」という単純な既存の Google Search Console ツールを使用して視覚化することが難しい文字列を検索できます。 ここでは、売上向上に役立つ、パフォーマンスは高いものの、見つけにくいロングテール キーワードを見つけることができます。

3. カスタム チャネル グループとイベントの作成

Google はトラフィック ソースやアクティビティに関してもカテゴリを提供することを好みます。 プラットフォームには事前に設定されたチャネル グループがあり、これらのチャネルを通じてサイトに流入したトラフィックを識別できます。 また、基本的な分析戦略で追跡する可能性のある「ページビュー」などのイベントも設定します。

RegEx を使用すると、この分析情報をすべてカスタマイズできます。 「ヨーロッパ大陸のアプリ ユーザーからのトラフィック」など、戦略に関連するチャネル グループを作成できます。 この利点は明らかです。デジタル マーケティング戦略の成功を理解するために最も重要な基準をグループに設定できます。

4. パフォーマンスが低いページの特定

何千もの URL がある電子商取引サイトについてのメモを覚えていますか? これは多くの Web サイト開発者にとって共通の状態です。Web サイト ページの長いインデックスがあり、どのページが最大の利益をもたらしているかを確認するためのカスタマイズ可能な分析が必要です。 ただし、一部の URL にはエラーがある可能性があるため、これで終わりではありません。 ユーザーのアクティビティ パターンは他のページとは異なる場合があります。 訪問者がコンバージョンに至らなかったり、クリックスルーして他のページに移動しなかったりする可能性があります。

RegEx を使用すると、これらの各ページにリンクされているアクティビティを詳しく調べることができます。 このデータを使用して、エラーの修正を開始したり、ページレベルの分析を実行したりできます。

これは継続的なメンテナンスに役立ちます。 また、戦略の変更が、うまく機能している部分を最適化し、不足している部分を修正するのに役立つかどうかを確認する最初のステップにもなります。

5. 紹介の除外

Google アナリティクス 4 のトラフィック レポートは通常、すべての参照ソースをキャプチャしますが、実際には一部のトラフィック参照をレポートから除外したい場合があります。 クリック課金キャンペーンを実施しているとします。 キャンペーンのパフォーマンスの追跡に役立つトラフィック パターンは次のとおりです。

  • 広告URL → 購入確認URL

この例では、広告の URL がトラフィック ソースです。 しかし、より一般的には、分析で生じるパターンは次のとおりです。

  • 広告URL → 支払いゲートウェイ → 購入確認URL

分析では、購入トラフィックの参照元として広告 URL を特定する代わりに、支払いゲートウェイを特定します。 顧客はさまざまなソースから支払いゲートウェイに到達する可能性があるため、これは分析の観点からは明らかに理想的ではありません。

紹介除外を使用すると、この例の支払いゲートウェイなどの潜在的な紹介元を分析から削除できます。

紹介の除外は、GA4 の RegEx を使用して実現できます。

  • 「タグ設定を構成する」オプションを見つけます。
  • 「紹介ドメインが正規表現と一致する」に基づいて紹介を除外するオプションを選択します。
  • 正規表現文字列を入力します。

この方法で RegEx を使用する利点は、レポートで除外する複数のドメインをリストする必要がないことです。 RegEx 文字列を簡単に識別できます。

6. 行動に基づいてユーザーをセグメント化してオーディエンスを作成する

RegEx を使用してカスタム チャネルを作成するのと同じように、分析データをドリルダウンしてユーザーの行動の全体像を明らかにすることができます。 このプロセスは行動セグメンテーションと呼ばれ、特定の基準に適合するユーザーをセグメント化されたオーディエンスに分割することができます。

これは、カスタマー ジャーニー、ユーザーが頻繁に利用するチャネル、ユーザーが応答するメッセージを含む包括的な分析です。 オーディエンスをセグメント化すると、グループごとに個別にターゲットを絞ったデジタル マーケティング戦略を開発できます。

7. インデックスの整合性チェックの実行

開発者に任されることが多いタスクであるインデックスの整合性チェックでは、ローカル サイトのインデックスが関連データベースのインデックスと一致しているかどうかを確認します。 RegEx は、貪欲な RegEx パターンまたは遅延 RegEx パターンを使用して 2 つの間の不一致を特定し、それに応じて修正できるため、このタスクで優れた使いやすさと機能性を提供します。

8. HTML要素の識別によるコンテンツの評価

技術的な SEO の一環として、Web サイトのコードを検索エンジンがクロールしやすくすることが挙げられます。 コードは通常、適切に構造化され、よく整理されている必要があります。 コードが乱雑すぎると、SEO に悪影響を及ぼす可能性があります。 RegEx を使用すると、Web サイト全体で「不格好な」コードの文字列を特定し、最適化のプロセスでクリーンアップできるようになります。

開発者は、欠陥を検索することでコンテンツの「バックエンド」品質を評価できます。 RegEx コマンドは、冗長な空白行、空白の欠如、長すぎるコード行の長さなど、不適切なコード スタイルの要素を特定するのに役立ちます。

これも、Web サイトに数百、あるいは数千のページがある場合に、RegEx が貴重な時間節約ツールであることを示すもう 1 つの出来事です。

9. 「.Htaccess」ファイルからのスマート リダイレクトの作成

「.Htaccess」ファイルは、あるページから別のページへの自動リダイレクトを引き起こす隠しファイルです。 新しい製品ラインに関して 2 つのコンテンツを開発したとします。1 つは開発プロセスに関する CEO へのインタビューで、もう 1 つは製品の仕様の内訳です。

おそらく、立ち上げから 1 か月後に CEO インタビューを取り下げたいと考えているかもしれません。 RegEx を使用すると、ユーザーをそのコンテンツに誘導した検索文字列を特定し、実際に見てもらいたいコンテンツへのスマートなリダイレクトを提供できます。

10. 購入後の顧客の問い合わせを見つける

デジタル マーケティング担当者は、コンバージョンの時点で自分の仕事が終わると考えるかもしれません。 しかし、購入後のデータは、顧客の購入後の懸念や経験についての深い洞察を提供することができます。 最近の顧客が何を考えているかによって、製品が機能するかどうか、またそれらの懸念にどのように積極的に対応できるかについて多くのことがわかります。

最先端の掃除機を販売していると想像してみましょう。 ユーザーが「保証」、「返品期間」、「動作しない」、「交換部品」、「苦情」などの重要な用語に関する情報を探しているかどうかを知りたいと思うかもしれません。

RegEx クエリは、顧客が購入後に検索する可能性のある主要な用語を特定するのに役立ち、対応できるようになります。 その応答は、カスタマー サービス チーム向けの一連の Q&A、または返品と保証の情報を提供する Web サイト上の関連ページである可能性があります。

11. ブランドトラフィックと非ブランドトラフィックの比較

デジタル マーケティング担当者にとって重要な問題の 1 つは、ブランド アイデンティティと製品、サービス、業界のどのセグメントのユーザーが検索するのかということです。 「コカ・コーラ」をブランドとして考えてみましょう。また、「ソフトドリンク」、「炭酸飲料」、「ソーダ」、「甘味料入り」などはすべてコカ・コーラに関連する用語の例です。 検索トラフィックでは、「コカ・コーラ」と「ソーダ」は両方とも潜在的なキーワードですが、1 つはブランド固有であり、もう 1 つはそうではありません。

マーケティング担当者は RegEx を使用して、ブランドおよびブランド関連の用語を検索している訪問者と、ブランドに関連しない用語を検索している訪問者を区別できます。 この例では、「Coca-Cola」、「Coke」、「Diet Coke」はすべてブランドのキーワードです。 トラフィック タイプを区別する Google Search Console の RegEx レポートの一例は、指定したブランド用語を「含む」または「除外」する RegEx クエリです。

RegEx の使用方法に応じて、「インクルード」レポートにはこれらのブランド用語のみが含まれる場合もあれば、すべての用語が含まれる場合もあります。 遅延 RegEx パターンを使用する場合、ブランド化されたトラフィックのみをキャプチャできます。 貪欲な正規表現パターンを使用すると、すべてをキャプチャできます。

12. ログファイル分析の実施

ログ ファイルから重要な用語を抽出するとします。 RegEx を使用すると、値が各ログ行に異なる順序で表示されたり、各ログ行にまったく表示されない場合でも、これを効率的に行うことができます。 RegEx を使用すると、データ分析に関連するログを特定し、それらを使用して一貫したレポートを作成できます。

RegEx には柔軟性があるため、遅延パターンを採用して、反復的なログの重複を排除できます。 デフォルトでは、正規表現パターンは貪欲です。 必要に応じて特殊文字を使用して、検索を遅延パターンに限定します (「*?」を使用するなど)。 の代わりに "*"。 1 つのヒントは、より複雑な RegEx パターンを実装する前に、ログの構造に対する透過性を提供する単純な RegEx クエリから始めることです。

よくある質問