Jak używać wyrażeń regularnych w Przyborniku

Opublikowany: 2022-04-17
Zawartość
Zawartość

Co to jest wyrażenie regularne?

Wyrażenie regularne służy do sprawdzania lub weryfikacji wzorca. Ich głównym zastosowaniem jest filtrowanie elementów i znajdowanie dopasowań np. w następujących scenariuszach:

  • Analytics: możesz użyć wyrażenia regularnego do segmentacji ruchu.
  • Htaccess: możesz przepisać adresy URL w bardziej efektywny sposób.
  • SISTRIX: możesz filtrować nasze raporty zawierające adresy URL, fragmenty lub słowa kluczowe.

Wyrażenia regularne – lub Regex – mogą być używane w wielu językach programowania, ale ten samouczek będzie oparty na Perlu, ponieważ wykorzystuje on standard, na którym oparta jest już dostępna funkcjonalność SISTRIX Regex .

Jak możemy budować wyrażenia regularne?

Zrobimy to za pomocą znaków, grupowań, kwantyfikatorów i klas, ponieważ jest to składnia, dzięki której będziemy mogli budować wyrażenia.

Składnia tworzenia wyrażenia regularnego
Postacie Zachowanie Przykład
? Szuka poprzedzającego znaku 1 lub 0 razy. https?
* Wyszukuje poprzedzający znak 0 lub więcej razy. 30*
+ Wyszukuje poprzedzający znak 1 lub więcej razy. [0-9]+
| Szuka takiego lub innego elementu. (lub) (jpg|jpeg)
^ Wskazuje początek wzoru ^https
$ Wskazuje koniec wzoru html$
· Szuka dowolnej postaci (dzika karta) 4..
\ Nie interpretuje znaku specjalnego (pomijane znaki) \/
Opcje grupowania dla wyrażeń regularnych
Grupowanie Zachowanie Przykład
() Przechwytuje określoną treść (siostra)
Pasuje do siostry
[] Przechwytuje znaki w nawiasach [0-9]
Dopasowuje dowolny znak numeryczny
[a]
Pasuje do każdej małej litery
{} Wskazuje liczbę iteracji, minimalną lub maksymalną .{1,3} Dopasowuje dowolny znak powtórzony od 1 do 3 razy.

W tym samouczku nie będziemy używać kwantyfikatorów, ale uważamy, że zapoznanie się z nimi w przypadku używania ich w innych środowiskach jest nadal interesujące.

Kwantyfikatory w wyrażeniach regularnych
Kwantyfikatory Zachowanie
\w Szuka słowa, cyfry lub _ typu znaku
\d Szuka znaku cyfry
\s Szuka znaku odstępu
\b Dopasowuje początek lub koniec słowa
\W Szuka znaku, który nie jest słowem, cyfrą ani _
\D Szuka znaku, który nie jest cyfrą
\S Szuka znaku, który nie jest spacją.

Przykłady SEO z wyrażeniami regularnymi

Aby móc skorzystać z sugerowanych przykładów, musisz przejść do sekcji „Słowa kluczowe” i użyć filtrów Słowa kluczowe, URL, Tytuł lub Opis.

Filtrowanie słów kluczowych za pomocą wyrażeń regularnych

Aby uzyskać dostęp do tej funkcji wystarczy przeanalizować domenę 1 i przejść do Słowa kluczowe 2 , a następnie przejść do wyboru Filtr 3

1
2
3

Następnie użyj filtra słów kluczowych z Regex 4 .

4

Teraz chcielibyśmy zaproponować kilka przypadków użycia, w których możesz zastosować te wyrażenia, aby jak najlepiej wykorzystać analizę słów kluczowych swoich projektów lub podczas analizy konkurencji.

Uwzględnij lub wyklucz nazwę marki

Wyobraź sobie, że masz markę, która akceptuje różną pisownię lub jest znana pod kilkoma różnymi markami. Możemy utworzyć wyrażenie regularne, aby pogrupować wszystkie słowa kluczowe, które uważamy za hasła związane z marką. Na przykład currys.co.uk ma różne markowe słowa kluczowe, a mianowicie:

curry, curry, pc świat

Dlatego użyjemy następującego wyrażenia:

 (curry|currys|pc world).*
Tabela słów kluczowych w SISTRIX Toolbox dla currys.co.uk z zastosowanym filtrem wyrażeń regularnych „.*(curry|currys|pc world).*”.

Poniżej możesz zobaczyć wyniki, które byśmy otrzymali:

Można również ustawić filtr, aby wykluczyć markowe słowa kluczowe, używając następującego wyrażenia, i będzie on wyświetlać tylko ogólne słowa kluczowe:

 ^(?!.*(curry|currys|pc world).*?)
Tabela słów kluczowych w SISTRIX Toolbox dla currys.co.uk z zastosowanym filtrem wyrażeń regularnych „.^(?!.*(curry|currys|pc world).*?)”.

Uwzględnij lub wyklucz błędy w terminach związanych z marką

Istnieje szansa, że ​​natkniemy się na marki, które często mają błędną pisownię lub są napisane z błędami, takie jak Ryanair.

Oto kilka przykładów terminów wprowadzanych przez użytkowników w celu wyszukania tej linii lotniczej:

  • Ryanair
  • rayaner
  • Ryan Ir
  • Rayan Ir
  • rayana eir
  • raya nair
  • rayan ari
  • promienie powietrza

Zidentyfikowaliśmy ponad 35 nazw marek, które możemy uchwycić za pomocą jednego wyrażenia regularnego:

Aby uwzględnić wszystkie odmiany marki:

 (r|t)[hzeuayi]?[naiy].?[an]?[airn].?(r|t|air)?(e|lines| )?(line|ir)?
Tabela słów kluczowych w SISTRIX Toolbox dla ryanair.com z filtrem wyrażeń regularnych „.(r|t)[hzeuayi]?[naiy].?[an]?[airn].?(r|t|air)?(e| linie| )?(linia|ir)?" stosowany.

Aby wykluczyć wszystkie odmiany marki:

 ^((?!(r|t)[hzeuayi]?[naiy].?[an]?[airn].?(r|t|air)?(e|lines| )?(line|ir)?).)*$
Tabela słów kluczowych w SISTRIX Toolbox dla ryanair.com z filtrem wyrażeń regularnych „^((?!(r|t)[hzeuayi]?[naiy].?[an]?[airn].?(r|t|air) ?(e|lines| )?(line|ir)?).)*$".

Oczywiście nadal możemy zastosować do tej listy inne filtry, takie jak „zawiera”, „nie zawiera”, „kończy się na” lub „zaczyna się od”.

Uwzględnij lub wyklucz słowa kluczowe kończące się określonymi słowami

Do wyszukania unikalnego słowa kluczowego wystarczy prosty filtr, ale jeśli chcielibyśmy przeprowadzić wyszukiwanie z kilkoma warunkami, na przykład: wszystkie słowa kluczowe zaczynające się od „kup” i kończące się na „online”, możemy użyć:

 ^buy.*online$

To, zastosowane w sklepie internetowym, takim jak screwfix.com, zwróci następujące wyniki:

Tabela słów kluczowych w SISTRIX Toolbox dla currys.co.uk z zastosowanym filtrem wyrażeń regularnych „^buy.*online$”.

Uwzględnij lub wyklucz słowa kluczowe zaczynające się od określonych słów

Z punktu widzenia porównywarki może być interesująca możliwość filtrowania słów kluczowych zawierających różne nazwy marek.

Na przykład możemy utworzyć wyrażenie regularne, które pogrupuje terminy na podstawie żądanych kryteriów, czyli w tym przypadku dowolnego terminu słowa kluczowego zaczynającego się od dowolnej nazwy marki zawartej w nawiasach:

 ^(sony|panasonic|philips|samsung).*

Podobnie możemy go użyć do ich wykluczenia:

 ^(?!(sony|panasonic|philips|samsung).*)

Uwzględnij lub wyklucz słowa kluczowe związane z określonymi atrybutami

Spróbujmy tego na przykładzie atrybutu często spotykanego w wielu projektach: cena.

Istnieje wiele zapytań wyszukiwania nawiązujących do ceny, takich jak: „tanio”, „rabat”, „outlet”, „kupon”, „oferta”, „niski koszt”, „budżet” itp.

Jeśli chcemy je wykluczyć z wyników, możemy użyć następującego wyrażenia:

 .*(cheap|budget|offer|outlet|price).*
Tabela słów kluczowych w SISTRIX Toolbox dla skinflint.co.uk z zastosowanym filtrem wyrażeń regularnych „.*(cheap|budget|offer|outlet|price).*”.

Korzystając z dynamicznych kolumn tabeli, możemy uporządkować dane według liczby wyszukiwań w porządku malejącym, klikając po prostu nagłówek kolumny.

W innych przypadkach możemy również użyć innych atrybutów, takich jak kolory, kształty, rozmiary, cel itp.

Uwzględnij lub wyklucz słowa kluczowe zawierające nazwy miast w Zjednoczonym Królestwie

Wiele projektów wymaga śledzenia obecności lokalnej. W tym celu możemy użyć Regex do grupowania prowincji, regionów, miast, miasteczek itp.

W tym przykładzie wykorzystamy listę miast do zbudowania wyrażenia regularnego, które będzie filtrować słowa kluczowe zawierające miasto.

 .*(aberdeen|armagh|bangor|bath|belfast|birmingham|bradford|brighton|brighton & hove|bristol|cambridge|canterbury|cardiff|carlisle|chelmsford|chester|chichester|coventry|derby|derry|dundee|durham|edinburgh|ely|exeter|glasgow|gloucester|hereford|inverness|kingston|kingston upon hull|lancaster|leeds|leicester|lichfield|lincoln|lisburn|liverpool|london|manchester|newcastle|newcastle upon tyne|newport|newry|norwich|nottingham|oxford|perth|peterborough|plymouth|portsmouth|preston|ripon|st albans|st asaph|st davids|salford|salisbury|sheffield|southampton|stoke|stoke-on-trent|sunderland|swansea|truro|wakefield|wells|westminster|winchester|wolverhampton|worcester|york).*

Każda firma zajmująca się handlem elektronicznym lub porównywarka fizycznie obecna może użyć tego wyrażenia, aby wykluczyć miasta, a nawet dodać markowe słowa kluczowe lub wykluczyć inne parametry.

 ^(?!(.*(aberdeen|armagh|bangor|bath|belfast|birmingham|bradford|brighton|brighton & hove|bristol|cambridge|canterbury|cardiff|carlisle|chelmsford|chester|chichester|coventry|derby|derry|dundee|durham|edinburgh|ely|exeter|glasgow|gloucester|hereford|inverness|kingston|kingston upon hull|lancaster|leeds|leicester|lichfield|lincoln|lisburn|liverpool|london|manchester|newcastle|newcastle upon tyne|newport|newry|norwich|nottingham|oxford|perth|peterborough|plymouth|portsmouth|preston|ripon|st albans|st asaph|st davids|salford|salisbury|sheffield|southampton|stoke|stoke-on-trent|sunderland|swansea|truro|wakefield|wells|westminster|winchester|wolverhampton|worcester|york).*))

Możemy jednak również podzielić je na kilka wyrażeń, jak pokazano poniżej:

Pole Filtruj wyniki dla tabeli słów kluczowych SISTRIX Toolbox. Filtr jest ustawiony na „Słowo kluczowe”, a następnie „Wyrażenie regularne”. Wprowadzone wyrażenie regularne to „^(?!.*(nike|jordan|air|niketown).*?)”.

Od tego momentu dodajemy Filtr eksperta, aby wskazać, że te dwa wyrażenia są typu „i”, zamiast typu „lub”.

Opcje tabeli dla tabeli słów kluczowych. Można je znaleźć w górnej nawigacji obok „daty”. Wybrana jest opcja „Filtr ekspercki”.
Tabela słów kluczowych w SISTRIX Toolbox dla nike.com z włączonymi filtrami eksperckimi. Oto dwa filtry wyrażeń regularnych połączone logicznym AND.

Filtrowanie adresów URL za pomocą wyrażeń regularnych

Kroki, które musisz wykonać, aby filtrować adresy URL, są takie same, jak te, które badaliśmy dla słów kluczowych, jedyną różnicą jest to, że musisz wybrać „adresy URL”, a następnie wyrażenia regularne.

Pole Filtruj wyniki dla tabeli słów kluczowych SISTRIX Toolbox. Filtr jest ustawiony na „URL”, a następnie „Wyrażenie regularne”.

Uwzględnij lub wyklucz subdomeny

Teraz, gdy nauczyliśmy się używać wyrażeń regularnych do filtrowania słów kluczowych, znajdźmy kilka typowych przypadków użycia SEO, w których musielibyśmy filtrować adresy URL.

Oto kilka podstawowych przypadków użycia do analizy całej domeny i grupowania adresów URL według strategicznych subdomen:

 (www|support)
Tabela słów kluczowych w SISTRIX Toolbox dla apple.com z zastosowanym filtrem wyrażeń regularnych „(www|support)”.

Możemy użyć filtra wykluczającego, aby na przykład oddzielić subdomeny czysto transakcyjne i pominąć informacyjne słowa kluczowe pochodzące z blogów lub często zadawanych pytań.

 ^^(?!.*(www|support).*?)
Tabela słów kluczowych w SISTRIX Toolbox dla apple.com z zastosowanym filtrem wyrażeń regularnych „^(?!.*(www|support).*?)”.

Uwzględnij lub wyklucz adresy URL kończące się lub nie kończące się na /

Jeśli domena .com strony głównej kończy się ukośnikiem, wyrażenie regularne można dostosować tak, aby pasowało:

 ^.*.com/$
 ^(?!(.*.com/$))

Dowolny adres URL kończący się na /

 .*/$

Możemy również użyć tego wyrażenia regularnego dla adresów URL, aby skupić się wyłącznie na adresach URL kończących się ukośnikiem (/). W tym celu wpisz domenę w wyszukiwarkę (1), następnie kliknij w adresy URL w nawigacji (2), dodaj filtr (3) i wybierz filtr URL jako „wyrażenie regularne” (4):

1
2
3
4

Oczywiście działa to również w przypadku adresów URL nie kończących się na /

 ^(?!(.*/$))
Tabela adresów URL w SISTRIX Toolbox dla apple.com z zastosowanym filtrem wyrażeń regularnych URL „^(?!(.*/$))”.

Uwzględnij lub wyklucz adresy URL zawierające liczby

Możemy majstrować przy składni adresu URL, aby określić, które z nich zawierają liczby, które należy uwzględnić lub wykluczyć:

 .*-[0-9].*
 ^(?!(.*-[0-9].*))

Jeśli potrzebujemy czegoś bardziej konkretnego i wiemy, że istnieją adresy URL kończące się określoną liczbą, możemy je również uwzględnić lub wykluczyć w następujący sposób:

 .*-[0-9]+$
 ^(?!(.*-[0-9]+$))

W tym przypadku naszą prośbą było filtrowanie łańcuchów zawierających serię 8 kolejnych liczb.

 .*[0-9]{8}.html$
 ^(?!(.*[0-9]{8}.html$))

Uwzględnij lub wyklucz adresy URL w określonym formacie

Możemy również użyć Regex do filtrowania formatów adresów URL. Na przykład adresy URL htm lub html, a także pdf.

Jest to dość łatwe, ponieważ możemy liczyć na filtry „kończy się” lub „zawiera”.

 .*htm.?$
 .*pdf$

Aby wykluczyć żądane formaty adresów URL:

 ^(?!(.*html.?$).)
 ^(?!(.*pdf.?$).)

Możemy użyć kilku formatów w tym samym wyrażeniu, co będzie bardziej wartościowe i zaoszczędzi nam kłopotów z łączeniem kilku filtrów, w tym:

 .*(htm|html)$
 .*(jpg|jpeg|gif|png)$

Możemy również łączyć formaty do wykluczenia:

 ^(?!(.*(htm|html)$).)
 ^(?!(.*htm.?)$).)
 ^(?!(.*(jpg|jpeg|gif|png)$).)

Uwzględnij lub wyklucz adresy URL dotyczące nieprawidłowych rynków

Możemy monitorować adresy URL, które nie powinny pojawiać się w wynikach wyszukiwania określonego rynku. Na przykład adresy URL związane z rynkiem amerykańskim, meksykańskim lub niemieckim, które pojawiają się w wynikach hiszpańskiego.

Opierając się na następujących instancjach adresów URL:

Hiszpański hiszpański /es_es/

angielski brytyjski /pl_pl/

angielski amerykański /en_us/

włoski włoski /it_it/

I tak dalej.

Możemy użyć Regex do filtrowania liczby adresów URL, które nie należą do rynku hiszpańskiego.

 ^(?!(.*[es]_[az].*)|(.*[az]_[es].*).)
Tabela słów kluczowych w SISTRIX Toolbox dla hm.com z zastosowanym filtrem wyrażeń regularnych „^(?!(.*[es]_[a-z].*)|(.*[a-z]_[es].*).)” .

Jak widać, wyrażenie dopuszcza adres URL strony głównej, na której znajduje się selektor języka.

Aby jeszcze bardziej doprecyzować to wyrażenie i opuścić stronę główną, możemy ją rozszerzyć, jak pokazano poniżej:

 ^(?!(.*.com/$)|(.*[es]_[az].*)|(.*[az]_[es].*).)
Tabela słów kluczowych w SISTRIX Toolbox dla hm.com z filtrem wyrażeń regularnych „^(?!(.*.com/$)|(.*[es]_[a-z].*)|(.*[a-z]_[ es].*).)".

Streszczenie

Dzięki parametrom podanym w tym poście możesz teraz znaleźć własne przypadki użycia, w których wyrażenia regularne mogą się przydać i pomóc w zwiększeniu wydajności analiz SEO.

Możesz nadal testować i ćwiczyć za pomocą narzędzi takich jak https://www.Regextester.com/ lub bezpośrednio za pomocą filtrów URL, słów kluczowych lub fragmentów kodu SISTRIX.

Mimo że nie zapewniamy wsparcia dla Regex, będziemy nadal aktualizować ten samouczek o nowe przypadki użycia i analizy SEO, które mogą okazać się dla Ciebie przydatne.