Co to jest plik robots.txt? Przewodnik dla początkujących, jak to zrobić z przykładami

Opublikowany: 2022-03-29

Drewniana figurka robota stoi na skrawku trawy.
Ach, robots.txt — jeden malutki plik z dużymi konsekwencjami. To jest jeden techniczny element SEO, którego nie chcesz się pomylić.

W tym artykule wyjaśnię, dlaczego każda strona internetowa potrzebuje pliku robots.txt i jak go utworzyć (bez powodowania problemów dla SEO). Odpowiem na najczęstsze często zadawane pytania i podam przykłady, jak poprawnie wykonać to dla Twojej witryny. Dam ci również przewodnik do pobrania, który zawiera wszystkie szczegóły.

Zawartość:

Co to jest plik robots.txt?
Dlaczego plik robots.txt jest ważny?
Ale czy plik robots.txt jest konieczny?
Jakie problemy mogą wystąpić z plikiem robots.txt?
Jak działa plik robots.txt?
Wskazówki dotyczące tworzenia pliku robots.txt bez błędów
Tester pliku robots.txt
Przewodnik po protokołach wykluczania robotów (do bezpłatnego pobrania)

Co to jest plik robots.txt?

Robots.txt to plik tekstowy, który wydawcy witryn tworzą i zapisują w katalogu głównym ich witryny. Jego celem jest poinformowanie automatycznych robotów indeksujących, takich jak boty wyszukiwarek, które strony nie mają indeksować w witrynie. Jest to również znane jako protokół wykluczania robotów.

Plik robots.txt nie gwarantuje, że wykluczone adresy URL nie będą indeksowane w wyszukiwaniu. Dzieje się tak, ponieważ roboty-pająki wyszukiwarek wciąż mogą dowiedzieć się, że te strony istnieją za pośrednictwem innych stron internetowych, które zawierają do nich linki. Lub strony mogą być nadal indeksowane z przeszłości (więcej o tym później).

Robots.txt nie gwarantuje również, że bot nie zaindeksuje wykluczonej strony, ponieważ jest to system dobrowolny. Rzadko by się zdarzało, aby główne roboty wyszukiwarek nie stosowały się do twoich dyrektyw. Ale inne, które są złymi robotami internetowymi, takie jak spamboty, złośliwe oprogramowanie i oprogramowanie szpiegujące, często nie wykonują poleceń.

Pamiętaj, że plik robots.txt jest publicznie dostępny. Możesz po prostu dodać /robots.txt na końcu adresu URL domeny, aby zobaczyć jej plik robots.txt (jak nasz tutaj). Dlatego nie dołączaj żadnych plików ani folderów, które mogą zawierać informacje o znaczeniu krytycznym dla firmy. I nie polegaj na pliku robots.txt w celu ochrony prywatnych lub wrażliwych danych przed wyszukiwarkami.

OK, pomijając te zastrzeżenia, przejdźmy dalej…

Dlaczego plik robots.txt jest ważny?

Boty wyszukiwarek mają dyrektywę indeksowania i indeksowania stron internetowych. Za pomocą pliku robots.txt możesz selektywnie wykluczać strony, katalogi lub całą witrynę z indeksowania.

Może to być przydatne w wielu różnych sytuacjach. Oto kilka sytuacji, w których warto użyć pliku robots.txt:

Blokowanie niektórych stron lub plików, których nie należy przeszukiwać/indeksować (takich jak strony nieważne lub podobne)
Aby zatrzymać indeksowanie niektórych części witryny podczas ich aktualizacji
Aby poinformować wyszukiwarki o lokalizacji Twojej mapy witryny
Aby powiedzieć wyszukiwarkom, aby ignorowały określone pliki w witrynie, takie jak filmy, pliki audio, obrazy, pliki PDF itp., i nie wyświetlały ich w wynikach wyszukiwania
Aby upewnić się, że Twój serwer nie jest przytłoczony żądaniami*

*Korzystanie z pliku robots.txt do zablokowania niepotrzebnego indeksowania to jeden ze sposobów na zmniejszenie obciążenia serwera i pomoc botom w efektywniejszym znajdowaniu dobrych treści. Google udostępnia tutaj przydatny wykres. Ponadto Bing obsługuje dyrektywę crawl-delay, która może pomóc w zapobieganiu zbyt wielu żądaniom i przeciążeniu serwera.

Oczywiście istnieje wiele zastosowań pliku robots.txt, a więcej z nich opiszę w tym artykule.

Ale czy plik robots.txt jest konieczny?

Każda witryna internetowa powinna mieć plik robots.txt, nawet jeśli jest pusty. Kiedy boty wyszukiwarek pojawiają się na Twojej stronie, pierwszą rzeczą, której szukają, jest plik robots.txt.

Jeśli żaden nie istnieje, pająki otrzymują błąd 404 (nie znaleziono). Chociaż Google twierdzi, że Googlebot może kontynuować i indeksować witrynę, nawet jeśli nie ma pliku robots.txt, uważamy, że lepiej jest załadować pierwszy plik, o który bot żąda, niż wywołać błąd 404.

Jakie problemy mogą wystąpić z plikiem robots.txt?

Ten prosty mały plik może powodować problemy dla SEO, jeśli nie będziesz ostrożny. Oto kilka sytuacji, na które należy uważać.

1. Przypadkowe zablokowanie całej witryny

To macha zdarza się częściej, niż myślisz. Programiści mogą używać pliku robots.txt do ukrywania nowej lub przeprojektowanej sekcji witryny podczas jej tworzenia, ale potem zapominają o odblokowaniu jej po uruchomieniu. Jeśli jest to istniejąca witryna, ten błąd może spowodować nagłe zawalenie się rankingów w wyszukiwarkach.

Przydatna jest możliwość wyłączenia indeksowania podczas przygotowywania nowej witryny lub sekcji witryny do uruchomienia. Pamiętaj tylko, aby zmienić to polecenie w pliku robots.txt, gdy witryna zostanie uruchomiona.

2. Z wyłączeniem stron, które są już zindeksowane

Blokowanie stron w pliku robots.txt, które są indeksowane, powoduje ich zablokowanie w indeksie Google.

Jeśli wykluczysz strony, które już znajdują się w indeksie wyszukiwarki, pozostaną tam. Aby faktycznie usunąć je z indeksu, należy ustawić metatag robots „noindex” na samych stronach i pozwolić Google na jego indeksowanie i przetwarzanie. Gdy strony zostaną usunięte z indeksu, zablokuj je w pliku robots.txt, aby uniemożliwić Google żądanie ich w przyszłości.

Jak działa plik robots.txt?

Aby utworzyć plik robots.txt, możesz użyć prostej aplikacji, takiej jak Notatnik lub TextEdit. Zapisz go z nazwą pliku robots.txt i prześlij do katalogu głównego swojej witryny jako www.domain.com/robots.txt — to jest miejsce, w którym pająki będą go szukać.

Prosty plik robots.txt wyglądałby mniej więcej tak:

Agent użytkownika: *
Nie zezwalaj: /nazwa-katalogu/

Google dobrze wyjaśnia, co oznaczają poszczególne wiersze w grupie w pliku robots.txt w pliku pomocy dotyczącym tworzenia robots.txt:

Każda grupa składa się z wielu reguł lub dyrektyw (instrukcji), po jednej dyrektywie w wierszu.
Grupa podaje następujące informacje:
Do kogo grupa ma zastosowanie (klient użytkownika)
Do których katalogów lub plików może uzyskać dostęp agent?
Do których katalogów lub plików agent nie ma dostępu?

W dalszej części wyjaśnię więcej o różnych dyrektywach w pliku robots.txt.

Dyrektywy robots.txt

Typowa składnia używana w pliku robots.txt to:

Agent użytkownika

User-agent odnosi się do bota, któremu wydajesz polecenia (na przykład Googlebot lub Bingbot). Możesz mieć wiele dyrektyw dla różnych agentów użytkownika. Ale kiedy używasz znaku * (jak pokazano w poprzedniej sekcji), jest to chwyt-wszystko, co oznacza wszystkie programy użytkownika. Tutaj możesz zobaczyć listę agentów użytkownika.

Uniemożliwić

Reguła Disallow określa folder, plik, a nawet cały katalog, który ma być wykluczony z dostępu robotów internetowych. Przykłady obejmują:

Zezwól robotom na pająki po całej witrynie:

Agent użytkownika: *
Uniemożliwić:

Nie zezwalaj na wszystkie roboty z całej witryny:

Agent użytkownika: *
Uniemożliwić: /

Zabroń wszystkim robotom z „/mójfolder/” i wszystkich podkatalogów „mójfolder”:

Agent użytkownika: *
Nie zezwalaj: /mójfolder/

Nie zezwalaj wszystkim robotom na dostęp do dowolnego pliku zaczynającego się od „myfile.html”:

Agent użytkownika: *
Zabroń: /mojplik.html

Nie zezwalaj Googlebotowi na dostęp do plików i folderów zaczynających się od „my”:

Klient użytkownika: googlebot
Nie zezwalaj: /moja

Umożliwić

To polecenie dotyczy tylko Googlebota i informuje go, że może uzyskać dostęp do folderu lub strony internetowej podkatalogu, nawet jeśli jego katalog nadrzędny lub strona internetowa są niedozwolone.

Weźmy następujący przykład: Nie zezwalaj na wszystkie roboty z folderu /scripts/ z wyjątkiem page.php:

Nie zezwalaj: /skrypty/
Zezwól: /scripts/page.php

Opóźnienie indeksowania

To informuje boty, jak długo czekać na zaindeksowanie strony internetowej. Witryny internetowe mogą to wykorzystać, aby zachować przepustowość serwera. Googlebot nie rozpoznaje tego polecenia, a Google prosi o zmianę szybkości indeksowania za pomocą Search Console. Jeśli to możliwe, unikaj opóźnienia indeksowania lub używaj go ostrożnie, ponieważ może to znacząco wpłynąć na terminowe i skuteczne indeksowanie witryny.

Mapa strony

Poinformuj roboty wyszukiwarek, gdzie znaleźć mapę witryny XML w pliku robots.txt. Przykład:

Agent użytkownika: *
Nie zezwalaj: /nazwa-katalogu/
Mapa witryny: https://www.domain.com/sitemap.xml

Aby dowiedzieć się więcej o tworzeniu map witryn XML, zobacz: Co to jest mapa witryny XML i jak ją utworzyć?

Znaki wieloznaczne

Istnieją dwa znaki, które mogą pomóc robotom wskazać, jak obsługiwać określone typy adresów URL:

Charakter. Jak wspomniano wcześniej, może stosować dyrektywy do wielu robotów za pomocą jednego zestawu reguł. Innym zastosowaniem jest dopasowanie sekwencji znaków w adresie URL, aby zabronić tych adresów URL.

Na przykład następująca reguła uniemożliwi Googlebotowi dostęp do dowolnego adresu URL zawierającego „strona”:

Klient użytkownika: googlebot
Nie zezwalaj: /*strona

Znak $. Znak $ mówi robotom, aby pasowały do dowolnej sekwencji na końcu adresu URL. Na przykład możesz zablokować indeksowanie wszystkich plików PDF w witrynie:

Agent użytkownika: *
Odrzuć: /*.pdf$

Zwróć uwagę, że możesz łączyć symbole wieloznaczne $ i *, a także łączyć je dla dyrektyw allow i disallow.

Na przykład, nie zezwalaj na wszystkie pliki asp:

Agent użytkownika: *
Odrzuć: /*asp$

Nie wykluczy to plików z ciągami zapytań lub folderów ze względu na $, który oznacza koniec
Wykluczone ze względu na symbol wieloznaczny poprzedzający bolenie – /ładna-osa
Wykluczone ze względu na symbol wieloznaczny poprzedzający asp – /login.asp
Nie wykluczone ze względu na $ i adres URL zawierający ciąg zapytania (?forgotten-password=1) – /login.asp?forgotten-password=1

Brak indeksowania a brak indeksowania

Jeśli nie chcesz, aby Google indeksowało stronę, istnieją inne środki zaradcze, inne niż plik robots.txt. Jak wskazuje tutaj Google:

Jakiej metody należy użyć do blokowania robotów indeksujących?
robots.txt: użyj go, jeśli indeksowanie treści powoduje problemy na serwerze. Możesz na przykład zabronić indeksowania nieskończonych skryptów kalendarza. Nie należy używać pliku robots.txt do blokowania treści prywatnych (zamiast tego należy używać uwierzytelniania po stronie serwera) ani obsługiwać kanonizacji. Aby upewnić się, że adres URL nie jest indeksowany, użyj metatagu robots lub nagłówka HTTP X-Robots-Tag.
metatag robots: użyj go, jeśli chcesz kontrolować sposób wyświetlania pojedynczej strony HTML w wynikach wyszukiwania (lub upewnić się, że nie jest wyświetlana).
Nagłówek HTTP X-Robots-Tag: użyj go, jeśli chcesz kontrolować sposób wyświetlania treści innych niż HTML w wynikach wyszukiwania (lub upewnić się, że nie jest wyświetlana).

A oto więcej wskazówek od Google:

Zablokowanie indeksowania strony przez Google może spowodować usunięcie strony z indeksu Google.
Jednak plik robots.txt Disallow nie gwarantuje, że strona nie pojawi się w wynikach: Google może nadal zdecydować, na podstawie informacji zewnętrznych, takich jak linki przychodzące, że jest ona istotna. Jeśli chcesz jawnie zablokować indeksowanie strony, użyj metatagu noindex robots lub nagłówka HTTP X-Robots-Tag. W takim przypadku nie należy blokować dostępu do strony w pliku robots.txt, ponieważ strona musi zostać zindeksowana, aby tag był widoczny i przestrzegany.

Wskazówki dotyczące tworzenia pliku robots.txt bez błędów

Oto kilka wskazówek, o których warto pamiętać podczas tworzenia pliku robots.txt:

W poleceniach rozróżniana jest wielkość liter. Na przykład potrzebujesz dużej litery „D” w Disallow .
Zawsze umieszczaj spację po dwukropku w poleceniu.
Wykluczając cały katalog, umieść ukośnik przed i po nazwie katalogu, na przykład: /nazwa-katalogu/
Wszystkie pliki, które nie zostały wyraźnie wykluczone, zostaną uwzględnione w indeksowaniu przez boty.

Tester pliku robots.txt

Zawsze testuj plik robots.txt. Częściej zdarza się, że wydawcy witryn mogą się mylić, co może zniszczyć Twoją strategię SEO (np. jeśli zabronisz indeksowania ważnych stron lub całej witryny).

Użyj narzędzia Google do testowania pliku robots.txt. Informacje na ten temat znajdziesz tutaj.

Przewodnik po protokołach wykluczania robotów

Jeśli potrzebujesz więcej informacji niż ten artykuł, pobierz nasz przewodnik dotyczący protokołu wykluczania robotów . Jest to bezpłatny plik PDF, który można zapisać i wydrukować w celach informacyjnych, aby uzyskać szczegółowe informacje na temat tworzenia pliku robots.txt.

Myśli zamykające

Plik robots.txt jest pozornie prostym plikiem, ale umożliwia wydawcom witryn wydawanie złożonych instrukcji dotyczących sposobu, w jaki mają przeszukiwać witrynę przez boty. Poprawne ustawienie tego pliku ma kluczowe znaczenie, ponieważ może zniszczyć Twój program SEO, jeśli zostanie zrobiony źle.

Ponieważ istnieje tak wiele niuansów dotyczących korzystania z pliku robots.txt, koniecznie przeczytaj wprowadzenie Google do pliku robots.txt.

Czy masz problemy z indeksowaniem lub inne problemy, które wymagają specjalistycznej wiedzy technicznej w zakresie SEO? Jeśli chcesz otrzymać bezpłatną konsultację i wycenę usług, skontaktuj się z nami już dziś.