ツールボックスで正規表現を使用する方法

公開: 2022-04-17
コンテンツ
コンテンツ

正規表現とは何ですか?

正規表現は、パターンをチェックまたは検証するために使用されます。 それらの主なアプリケーションは、たとえば次のシナリオで、要素をフィルタリングして一致を見つけることです。

  • 分析:正規表現を使用してトラフィックをセグメント化できます。
  • Htaccess:より効率的な方法でURLを書き換えることができます。
  • SISTRIX:URL、スニペット、またはキーワードを含むレポートをフィルタリングできます。

正規表現(またはRegex)は多くのプログラミング言語で使用できますが、このチュートリアルは、すでに利用可能なSISTRIX Regex機能が基づいている標準を使用しているため、Perlに基づいています。

正規表現を作成するにはどうすればよいですか?

これは、式を作成するための構文であるため、文字、グループ化、数量詞、およびクラスを使用して行います。

正規表現を作成するための構文
キャラクター行動
前の文字を1回または0回検索します。 https?
* 前の文字を0回以上検索します。 30 *
+ 前の文字を1回以上検索します。 [0-9] +
| ある要素または別の要素を探します。 (また) (jpg | jpeg)
^ パターンの開始を示します^ https
$ パターンの終わりを示しますhtml $
・・任意の文字を検索します(ワイルドカード) 4.。
\ 特殊文字を解釈しません(文字をスキップします) \ /
正規表現のグループ化オプション
グループ化行動
() 特定のコンテンツをキャプチャします(sistrix)
sistrixに一致します
[] 角かっこ内の文字をキャプチャします[0-9]
任意の数字に一致します
[az]
小文字に一致します
{} 最小または最大の反復回数を示します。{1,3}1〜3回繰り返される任意の文字と一致します。

このチュートリアルでは、数量詞を使用しませんが、他の環境で数量詞を使用する場合に備えて、数量詞に慣れることは興味深いと思います。

正規表現の数量詞
数量詞行動
\ w 単語、数字、または_タイプの文字を検索します
\ d 数字を検索します
\ s 空白文字を探します
\ b 単語の最初または最後に一致します
\ W 単語、数字、または_ではない文字を検索します
\ D 数字ではない文字を探します
\ S 空白ではない文字を探します。

正規表現を使用したSEOの例

提案された例を使用できるようにするには、[キーワード]セクションに移動し、キーワード、URL、タイトル、または説明のフィルターを使用する必要があります。

正規表現によるキーワードのフィルタリング

この機能にアクセスするには、ドメイン1を分析し、キーワード2に移動してから、フィルター選択3に移動するだけです。

1
2
3

次に、Regex4でキーワードフィルターを使用します

4

ここで、これらの式を適用して、プロジェクトのキーワード分析を最大限に活用できる、または競合他社を分析している場合のいくつかのユースケースを提案します。

ブランド名を含めるか除外する

さまざまなスペルを受け入れるブランド、またはいくつかの異なるブランド名で知られているブランドがあるとします。 正規表現を作成して、ブランド用語と見なされるすべてのキーワードをグループ化できます。 たとえば、currys.co.ukにはさまざまなブランドキーワードがあります。

カレー、カレー、PCの世界

したがって、次の式を使用します。

 (curry|currys|pc world).*
正規表現フィルター「。*(curry | currys | pcworld)。*」が適用されたcurrys.co.ukのSISTRIXツールボックスのキーワードテーブル。

以下に、得られる結果を示します。

次の式を使用して、ブランドキーワードを除外するようにフィルターを設定することもでき、一般的なキーワードのみが表示されます。

 ^(?!.*(curry|currys|pc world).*?)
正規表現フィルター「。^(?!。*(curry | currys | pcworld)。*?)」が適用されたcurrys.co.ukのSISTRIXツールボックスのキーワードテーブル。

ブランド用語にエラーを含めるか除外する

Ryanairのように、つづりが間違っていたり、間違って書かれていることが多いブランドに遭遇する可能性があります。

ユーザーがこの航空会社を探すために入力する用語の例を次に示します。

  • ライアンエアー
  • ライアンエアー
  • ライアンir
  • rayan ir
  • ラヤナエア
  • ラヤネア
  • ラヤンアリ
  • レイアーエア

単一の正規表現を使用してキャプチャできる35を超えるブランド名を特定しました。

すべてのブランドバリエーションを含めるには:

 (r|t)[hzeuayi]?[naiy].?[an]?[airn].?(r|t|air)?(e|lines| )?(line|ir)?
正規表現フィルターを使用したryanair.comのSISTRIXツールボックスのキーワードテーブル"。(r | t)[hzeuayi]?[naiy]。?[an]?[airn]。?(r | t | air)?(e | lines |)?(line | ir)?」適用。

すべてのブランドバリエーションを除外するには:

 ^((?!(r|t)[hzeuayi]?[naiy].?[an]?[airn].?(r|t|air)?(e|lines| )?(line|ir)?).)*$
正規表現フィルターを使用したryanair.comのSISTRIXツールボックスのキーワードテーブル"^((?!(r | t)[hzeuayi]?[naiy]。?[an]?[airn]。?(r | t | air) ?(e | lines |)?(line | ir)?)。)*$"が適用されます。

もちろん、「含む」、「含まない」、「で終わる」、「で始まる」など、他のフィルターをこのリストに適用することもできます。

特定の単語で終わるキーワード用語を含めるか除外する

一意のキーワードを検索するには、単純なフィルターで十分ですが、たとえば、「購入」で始まり「オンライン」で終わるすべてのキーワードを使用して、いくつかの条件で検索を実行する場合は、次を使用できます。

 ^buy.*online$

これをscrewfix.comのようなオンラインストアに適用すると、次の結果が返されます。

正規表現フィルター「^buy。*online$」が適用されたcurrys.co.ukのSISTRIXツールボックスのキーワードテーブル。

特定の単語で始まるキーワード用語を含めるか除外する

比較ツールの観点からは、さまざまなブランド名を含むキーワードをフィルタリングできると興味深い場合があります。

たとえば、必要な基準に基づいて用語をグループ化する正規表現を作成できます。この場合は、括弧内に含まれるブランド名で始まるキーワード用語です。

 ^(sony|panasonic|philips|samsung).*

同様に、それを使用してそれらを除外できます。

 ^(?!(sony|panasonic|philips|samsung).*)

特定の属性に関連するキーワード用語を含めるか除外する

多くのプロジェクトで一般的に見られる属性の例でこれを試してみましょう:価格。

「安い」、「割引」、「アウトレット」、「クーポン」、「オファー」、「低コスト」、「予算」など、価格をほのめかす検索クエリはたくさんあります。

それらを結果から除外する場合は、次の式を使用できます。

 .*(cheap|budget|offer|outlet|price).*
正規表現フィルター「。*(安い|予算|オファー|アウトレット|価格)。*」が適用されたskinflint.co.ukのSISTRIXツールボックスのキーワードテーブル。

テーブルの動的な列を利用して、列のヘッダーをクリックするだけで、検索ボリュームごとにデータを降順で整理できます。

他の場合には、色、形、サイズ、ターゲットなどの他の属性を使用することもできます。

UnitedKindgomの都市の名前を含むキーワード用語を含めるか除外する

多くのプロジェクトでは、ローカルプレゼンスの追跡が必要です。 これを行うには、Regexを使用して、州、地域、都市、町などをグループ化します。

この例では、都市のリストを使用して、都市を含むキーワード用語をフィルタリングする正規表現を作成します。

 .*(aberdeen|armagh|bangor|bath|belfast|birmingham|bradford|brighton|brighton & hove|bristol|cambridge|canterbury|cardiff|carlisle|chelmsford|chester|chichester|coventry|derby|derry|dundee|durham|edinburgh|ely|exeter|glasgow|gloucester|hereford|inverness|kingston|kingston upon hull|lancaster|leeds|leicester|lichfield|lincoln|lisburn|liverpool|london|manchester|newcastle|newcastle upon tyne|newport|newry|norwich|nottingham|oxford|perth|peterborough|plymouth|portsmouth|preston|ripon|st albans|st asaph|st davids|salford|salisbury|sheffield|southampton|stoke|stoke-on-trent|sunderland|swansea|truro|wakefield|wells|westminster|winchester|wolverhampton|worcester|york).*

eコマースビジネスや物理的な存在感のある比較ツールでは、この式を使用して都市を除外したり、ブランドキーワードを追加したり、他のパラメータを除外したりすることもできます。

 ^(?!(.*(aberdeen|armagh|bangor|bath|belfast|birmingham|bradford|brighton|brighton & hove|bristol|cambridge|canterbury|cardiff|carlisle|chelmsford|chester|chichester|coventry|derby|derry|dundee|durham|edinburgh|ely|exeter|glasgow|gloucester|hereford|inverness|kingston|kingston upon hull|lancaster|leeds|leicester|lichfield|lincoln|lisburn|liverpool|london|manchester|newcastle|newcastle upon tyne|newport|newry|norwich|nottingham|oxford|perth|peterborough|plymouth|portsmouth|preston|ripon|st albans|st asaph|st davids|salford|salisbury|sheffield|southampton|stoke|stoke-on-trent|sunderland|swansea|truro|wakefield|wells|westminster|winchester|wolverhampton|worcester|york).*))

ただし、以下に示すように、それらをいくつかの式に分割することもできます。

SISTRIXToolboxキーワードテーブルの[結果のフィルター]ボックス。フィルタは「キーワード」、「正規表現」の順に設定されています。入力された正規表現は「^(?!。*(nike | jordan | air | niketown)。*?)」です。

ここから、エキスパートフィルタを追加して、これら2つの式がタイプ「or」ではなくタイプ「and」であることを示します。

キーワードテーブルのテーブルオプション。それらは「日付」以外のトップナビゲーションにあります。 「エキスパートフィルター」オプションが選択されています。
エキスパートフィルターがアクティブになっているnike.comのSISTRIXツールボックスのキーワードテーブル。ブールANDで結合された2つの正規表現フィルターを次に示します。

正規表現によるURLのフィルタリング

URLをフィルタリングするために実行する必要のある手順は、キーワードについて調べた手順と同じです。唯一の違いは、「URL」を選択してから正規表現を選択する必要があることです。

SISTRIXToolboxキーワードテーブルの[結果のフィルター]ボックス。フィルタは「URL」、「正規表現」の順に設定されています。

サブドメインを含めるか除外する

正規表現を使用してキーワードをフィルタリングする方法を学習したので、URLをフィルタリングする必要がある典型的なSEOのユースケースをいくつか見つけましょう。

ドメイン全体を分析し、戦略的なサブドメインごとにURLをグループ化するための基本的な使用例を次に示します。

 (www|support)
正規表現フィルター「(www | support)」が適用されたapple.comのSISTRIXツールボックスのキーワードテーブル。

除外フィルターを使用して、たとえば、純粋にトランザクションのサブドメインを分離し、ブログやFAQからの情報キーワードを除外することができます。

 ^^(?!.*(www|support).*?)
正規表現フィルター「^(?!。*(www | support)。*?)」が適用されたapple.comのSISTRIXツールボックスのキーワードテーブル。

/で終わるまたは終わらないURLを含めるか除外する

ホームページの.comドメインがスラッシュで終わる場合、正規表現は次のように調整できます。

 ^.*.com/$
 ^(?!(.*.com/$))

/で終わるURL

 .*/$

この正規表現をURLに使用して、スラッシュ(/)で終わるURLのみに焦点を当てることもできます。 これを行うには、検索バーにドメインを入力し(1)、ナビゲーションでURLをクリックし(2)、フィルターを追加し(3)、URLフィルターを「正規表現」として選択します(4)。

1
2
3
4

もちろん、これは/で終わらないURLでも機能します

^(?!(.*/$))
URL正規表現フィルター「^(?!(。* / $))」が適用されたapple.comのSISTRIXツールボックスのURLテーブル。

数字を含むURLを含めるか除外する

URL構文をいじって、含めるまたは除外する番号が含まれているものを特定できます。

 .*-[0-9].*
 ^(?!(.*-[0-9].*))

より具体的なものが必要で、特定の番号で終わるURLがあることがわかっている場合は、次のようにそれらを含めたり除外したりすることもできます。

 .*-[0-9]+$
 ^(?!(.*-[0-9]+$))

この場合、私たちの要求は、一連の8つの連続した番号を含むチェーンをフィルタリングすることでした。

 .*[0-9]{8}.html$
 ^(?!(.*[0-9]{8}.html$))

特定の形式のURLを含めるか除外する

正規表現を使用してURL形式をフィルタリングすることもできます。 たとえば、htmまたはhtmlのURL、およびpdfのURLです。

これを行うには、「で終わる」または「含む」フィルターを頼りにできるので、これはかなり簡単です。

 .*htm.?$
 .*pdf$

目的のURL形式を除外するには:

 ^(?!(.*html.?$).)
 ^(?!(.*pdf.?$).)

同じ式内で複数の形式を使用できます。これはより価値があり、次のような複数のフィルターを連結する手間を省くことができます。

 .*(htm|html)$
 .*(jpg|jpeg|gif|png)$

また、除外するフォーマットを組み合わせることができます。

 ^(?!(.*(htm|html)$).)
 ^(?!(.*htm.?)$).)
 ^(?!(.*(jpg|jpeg|gif|png)$).)

誤った市場に関連するURLを含めるか除外する

特定の市場の結果に表示されるべきではないURLを監視できます。 たとえば、スペインの市場の結果に表示される米国、メキシコ、またはドイツの市場に関連するURL。

次のURLインスタンスをベースにしています。

スペインのスペイン語/es_es/

イギリス英語/en_gb/

アメリカ英語/en_us/

イタリアのイタリア語/it_it/

等々。

正規表現を使用して、スペイン市場に属していないURLの数をフィルタリングできます。

 ^(?!(.*[es]_[az].*)|(.*[az]_[es].*).)
正規表現フィルター「^(?!(。* [es] _ [a-z]。*)|(。* [a-z] _ [es]。*)。)」が適用されたhm.comのSISTRIXツールボックスのキーワードテーブル。

ご覧のとおり、この式では、言語セレクターが配置されているホームページのURLを使用できます。

この表現をさらに洗練し、ホームページを除外するために、以下に示すように拡張できます。

 ^(?!(.*.com/$)|(.*[es]_[az].*)|(.*[az]_[es].*).)
正規表現フィルターを使用したhm.comのSISTRIXツールボックスのキーワードテーブル"^(?!(。*。com / $)|(。* [es] _ [a-z]。*)|(。* [a-z] _ [ es]。*)。)」が適用されます。

概要

この投稿で提供されているパラメーターを使用すると、正規表現が役立つ独自のユースケースを見つけることができ、SEO分析をより効率的にすることができます。

https://www.Regextester.com/などのツールを使用するか、SISTRIXのURL、キーワード、またはスニペットフィルターを直接使用して、テストと練習を続けることができます。

正規表現のサポートは提供していませんが、このチュートリアルは、新しい使用例とSEO分析で更新され続けます。