Ce este robots.txt? Un ghid pentru începători pentru a-l pune în cuie cu exemple

Publicat: 2022-03-29

Figura robot din lemn stă pe un petic de iarbă.
Ah, robots.txt — un fișier minuscul, cu implicații mari. Acesta este un element tehnic SEO pe care nu doriți să îl greșiți, oameni buni.

În acest articol, voi explica de ce fiecare site are nevoie de un robots.txt și cum să creați unul (fără a cauza probleme SEO). Voi răspunde la întrebările frecvente frecvente și voi include exemple despre cum să o execut corect pentru site-ul dvs. web. De asemenea, vă voi oferi un ghid descărcabil care acoperă toate detaliile.

Continut:

  • Ce este robots.txt?
  • De ce este important robots.txt?
  • Dar, este robots.txt necesar?
  • Ce probleme pot apărea cu robots.txt?
  • Cum funcționează robots.txt?
  • Sfaturi pentru crearea unui fișier robots.txt fără erori
  • Testerul robots.txt
  • Ghidul protocolului de excludere a roboților (descărcare gratuită)

Ce este robots.txt?

Robots.txt este un fișier text pe care editorii de site-uri web îl creează și îl salvează la rădăcina site-ului lor. Scopul său este de a spune crawlerelor web automate, cum ar fi roboții motoarelor de căutare, care pagini nu trebuie să acceseze cu crawlere pe site. Acest lucru este cunoscut și sub numele de protocol de excludere a roboților.

Robots.txt nu garantează că adresele URL excluse nu vor fi indexate pentru căutare. Asta pentru că păianjenii motoarelor de căutare pot afla în continuare că acele pagini există prin intermediul altor pagini web care leagă. Sau, paginile pot fi încă indexate din trecut (mai multe despre asta mai târziu).

De asemenea, Robots.txt nu garantează în mod absolut că un bot nu va accesa cu crawlere o pagină exclusă, deoarece acesta este un sistem voluntar. Ar fi rar ca roboții majori ai motoarelor de căutare să nu adere la directivele dvs. Dar alții care sunt roboți web răi, cum ar fi spamboții, programele malware și spyware, adesea nu respectă ordinele.

Rețineți că fișierul robots.txt este accesibil public. Puteți doar să adăugați /robots.txt la sfârșitul unei adrese URL de domeniu pentru a vedea fișierul robots.txt al acestuia (ca al nostru aici). Prin urmare, nu includeți fișiere sau foldere care ar putea include informații esențiale pentru afaceri. Și nu vă bazați pe fișierul robots.txt pentru a proteja datele private sau sensibile de la motoarele de căutare.

Bine, cu aceste avertismente în afara drumului, hai să continuăm...

De ce este important robots.txt?

Boții motoarelor de căutare au directiva de a accesa cu crawlere și de a indexa paginile web. Cu un fișier robots.txt, puteți exclude în mod selectiv paginile, directoarele sau întregul site de la accesarea cu crawlere.

Acest lucru poate fi util în multe situații diferite. Iată câteva situații în care veți dori să utilizați robots.txt:

  • Pentru a bloca anumite pagini sau fișiere care nu trebuie accesate cu crawlere/indexate (cum ar fi pagini neimportante sau similare)
  • Pentru a opri accesarea cu crawlere a anumitor părți ale site-ului web în timp ce le actualizați
  • Pentru a spune motoarelor de căutare locația sitemap-ului dvs
  • Pentru a le spune motoarelor de căutare să ignore anumite fișiere de pe site, cum ar fi videoclipuri, fișiere audio, imagini, PDF-uri etc., și să nu le facă să apară în rezultatele căutării
  • Pentru a vă asigura că serverul dvs. nu este copleșit de solicitări*

*Folosirea robots.txt pentru a bloca accesarea cu crawlere inutilă este o modalitate de a reduce presiunea de pe serverul dvs. și de a ajuta roboții să găsească mai eficient conținutul dvs. bun. Google oferă aici o diagramă la îndemână. De asemenea, Bing acceptă directiva crawl-delay, care poate ajuta la prevenirea prea multor solicitări și la evitarea copleșirii serverului.

Desigur, există multe aplicații ale robots.txt și voi descrie mai multe dintre ele în acest articol.

Dar, este robots.txt necesar?

Fiecare site ar trebui să aibă un fișier robots.txt chiar dacă este gol. Când roboții motoarelor de căutare ajung pe site-ul dvs., primul lucru pe care îl caută este un fișier robots.txt.

Dacă nu există, atunci păianjenii primesc o eroare 404 (negăsit). Deși Google spune că Googlebot poate continua și accesa cu crawlere site-ul chiar dacă nu există niciun fișier robots.txt, credem că este mai bine să avem primul fișier pe care un bot solicită să se încarce, decât să producă o eroare 404.

Ce probleme pot apărea cu robots.txt?

Acest mic fișier simplu poate cauza probleme SEO dacă nu ești atent. Iată câteva situații la care trebuie să fii atent.

1. Blocarea întregului site din întâmplare

Problema asta se întâmplă mai des decât ai crede. Dezvoltatorii pot folosi robots.txt pentru a ascunde o secțiune nouă sau reproiectată a site-ului în timp ce o dezvoltă, dar apoi uită să o deblocheze după lansare. Dacă este un site existent, această greșeală poate face ca pozițiile în motoarele de căutare să se reducă brusc.

Este util să poți dezactiva accesarea cu crawlere în timp ce pregătești un nou site sau secțiune de site pentru lansare. Nu uitați să schimbați acea comandă în robots.txt când site-ul este disponibil.

2. Excluzând paginile care sunt deja indexate

Blocarea în paginile robots.txt care sunt indexate face ca acestea să rămână blocate în indexul Google.

Dacă excludeți pagini care sunt deja în indexul motorului de căutare, acestea vor rămâne acolo. Pentru a le elimina efectiv din index, ar trebui să setați o etichetă meta roboți „noindex” pe paginile în sine și să lăsați Google să acceseze cu crawlere și să o proceseze. Odată ce paginile sunt eliminate din index, blocați-le în robots.txt pentru a împiedica Google să le solicite pe viitor.

Cum funcționează robots.txt?

Pentru a crea un fișier robots.txt, puteți utiliza o aplicație simplă precum Notepad sau TextEdit. Salvați-l cu numele de fișier robots.txt și încărcați-l la rădăcina site-ului dvs. ca www.domain.com/robots.txt — aici îl vor căuta păianjenii.

Un fișier robots.txt simplu ar arăta cam așa:

Agent utilizator: *
Nu permiteți: /nume-director/

Google oferă o explicație bună a ceea ce înseamnă diferitele linii dintr-un grup în fișierul robots.txt în fișierul său de ajutor pentru crearea robots.txt:

Fiecare grup este format din mai multe reguli sau directive (instrucțiuni), câte o directivă pe linie.

Un grup oferă următoarele informații:

  • Cui se aplică grupul (agentul utilizator)
  • Ce directoare sau fișiere poate accesa agentul
  • Ce directoare sau fișiere nu le poate accesa agentul

În continuare, voi explica mai multe despre diferitele directive dintr-un fișier robots.txt.

Directive Robots.txt

Sintaxa obișnuită utilizată în robots.txt include următoarele:

Agent utilizator

User-agent se referă la botul în care dați comenzile (de exemplu, Googlebot sau Bingbot). Puteți avea mai multe directive pentru diferiți agenți de utilizator. Dar atunci când utilizați caracterul * (așa cum se arată în secțiunea anterioară), acesta este un catch-all care înseamnă toți agenții utilizator. Puteți vedea o listă de agenți de utilizator aici.

Nu permiteți

Regula de respingere specifică folderul, fișierul sau chiar un director întreg de exclus de la accesul roboților web. Exemplele includ următoarele:

Permiteți roboților să acceseze întregul site web:

Agent utilizator: *
Nu permiteți:

Nu permiteți toți roboții de pe întregul site web:

Agent utilizator: *
Nu permite: /

Nu permiteți toți roboții din „/myfolder/” și toate subdirectoarele „myfolder”:

Agent utilizator: *
Nu permiteți: /myfolder/

Permiteți tuturor roboților să acceseze orice fișier care începe cu „fișierul meu.html”:

Agent utilizator: *
Nu permiteți: /fișierul meu.html

Permiteți Googlebot să acceseze fișiere și foldere care încep cu „meu”:

Agent utilizator: googlebot
Nu permite: /meu

Permite

Această comandă este aplicabilă numai pentru Googlebot și îi spune că poate accesa un folder sau o pagină web subdirector chiar și atunci când directorul sau pagina web părinte este interzisă.

Luați următorul exemplu: Nu permiteți toți roboții din folderul /scripts/cu excepția page.php:

Nu permiteți: /scripturi/
Permite: /scripts/page.php

Întârzierea târârii

Aceasta le spune roboților cât timp trebuie să aștepte pentru a accesa cu crawlere o pagină web. Site-urile web ar putea folosi acest lucru pentru a păstra lățimea de bandă a serverului. Googlebot nu recunoaște această comandă și Google vă cere să modificați rata de accesare cu crawlere prin Search Console. Evitați întârzierea accesului cu crawlere, dacă este posibil, sau utilizați-o cu grijă, deoarece poate afecta semnificativ accesarea cu crawlere în timp util și eficientă a unui site web.

Harta site-ului

Spuneți roboților motoarelor de căutare unde să găsească sitemap-ul dvs. XML în fișierul robots.txt. Exemplu:

Agent utilizator: *
Nu permiteți: /nume-director/
Harta site-ului: https://www.domain.com/sitemap.xml

Pentru a afla mai multe despre crearea sitemap-urilor XML, consultați: Ce este un Sitemap XML și cum fac unul?

Caractere wildcard

Există două caractere care îi pot ajuta pe roboți să îndrume cum să gestioneze anumite tipuri de adrese URL:

Caracterul. După cum am menționat mai devreme, poate aplica directive mai multor roboți cu un singur set de reguli. Cealaltă utilizare este să potriviți o secvență de caractere într-o adresă URL pentru a interzice acele adrese URL.

De exemplu, următoarea regulă ar împiedica Googlebot să acceseze orice adresă URL care conține „pagină”:

Agent utilizator: googlebot
Nepermite: /*pagina

Caracterul $. $ le spune roboților să se potrivească cu orice secvență la sfârșitul unei adrese URL. De exemplu, este posibil să doriți să blocați accesarea cu crawlere a tuturor fișierelor PDF de pe site:

Agent utilizator: *
Nu permiteți: /*.pdf$

Rețineți că puteți combina caracterele metalice $ și * și acestea pot fi combinate pentru directivele allow și disallow.

De exemplu, nu permiteți toate fișierele asp:

Agent utilizator: *
Nu permiteți: /*asp$

  • Acest lucru nu va exclude fișierele cu șiruri de interogare sau foldere din cauza $ care desemnează sfârșitul
  • Exclus din cauza caracterului joker care precede asp – /pretty-wasp
  • Exclus datorită caracterului joker care precede asp – /login.asp
  • Nu este exclus din cauza $ și URL-ul care include un șir de interogare (?forgotten-password=1) – /login.asp?forgotten-password=1

Nu se accesează cu crawlere vs. Nu se indexează

Dacă nu doriți ca Google să indexeze o pagină, există și alte remedii pentru aceasta, în afară de fișierul robots.txt. După cum arată Google aici:

Ce metodă ar trebui să folosesc pentru a bloca crawlerele?

  • robots.txt: utilizați-l dacă accesarea cu crawlere a conținutului dvs. cauzează probleme pe server. De exemplu, poate doriți să interziceți accesarea cu crawlere a infinitelor scripturi de calendar. Nu trebuie să utilizați robots.txt pentru a bloca conținutul privat (utilizați în schimb autentificarea pe partea serverului) sau pentru a gestiona canonizarea. Pentru a vă asigura că o adresă URL nu este indexată, utilizați în schimb metaeticheta roboților sau antetul HTTP X-Robots-Tag.
  • metaetichetă robots: utilizați-o dacă trebuie să controlați modul în care o pagină HTML individuală este afișată în rezultatele căutării (sau pentru a vă asigura că nu este afișată).
  • Antet HTTP X-Robots-Tag: utilizați-l dacă trebuie să controlați modul în care conținutul non-HTML este afișat în rezultatele căutării (sau pentru a vă asigura că nu este afișat).

Și iată mai multe îndrumări de la Google:

Blocarea Google de la accesarea cu crawlere a unei pagini este probabil să elimine pagina din indexul Google.
Cu toate acestea, robots.txt Disallow nu garantează că o pagină nu va apărea în rezultate: Google poate decide totuși, pe baza informațiilor externe, cum ar fi link-urile primite, că este relevantă. Dacă doriți să blocați în mod explicit indexarea unei pagini, ar trebui să utilizați metaeticheta noindex robots sau antetul HTTP X-Robots-Tag. În acest caz, nu ar trebui să interziceți pagina din robots.txt, deoarece pagina trebuie accesată cu crawlere pentru ca eticheta să fie văzută și respectată.

Sfaturi pentru crearea unui fișier robots.txt fără erori

Iată câteva sfaturi de care trebuie să țineți cont când creați fișierul robots.txt:

  • Comenzile sunt sensibile la majuscule. Aveți nevoie de un „D” majuscul în Disallow , de exemplu.
  • Includeți întotdeauna un spațiu după două puncte în comandă.
  • Când excludeți un întreg director, puneți o bară oblică înainte și după numele directorului, așa: /directory-name/
  • Toate fișierele care nu sunt excluse în mod specific vor fi incluse pentru ca roboții să le poată accesa cu crawlere.

Testerul robots.txt

Testați întotdeauna fișierul robots.txt. Este mai obișnuit să credeți că editorii de site-uri web greșesc, ceea ce vă poate distruge strategia SEO (cum ar fi dacă nu permiteți accesarea cu crawlere a paginilor importante sau a întregului site).

Utilizați instrumentul de testare robots.txt de la Google. Puteți găsi informații despre asta aici.

Ghidul protocolului de excludere a roboților

Dacă aveți nevoie de o scufundare mai adâncă decât acest articol, descărcați Ghidul nostru privind protocolul de excludere a roboților . Este un PDF gratuit pe care îl puteți salva și tipări pentru referință, pentru a vă oferi o mulțime de detalii despre cum să vă construiți robots.txt.

Gânduri de închidere

Fișierul robots.txt este un fișier aparent simplu, dar le permite editorilor de site-uri web să ofere directive complexe cu privire la modul în care doresc ca roboții să acceseze cu crawlere un site web. Obținerea corectă a acestui fișier este esențială, deoarece ar putea șterge programul SEO dacă este făcut greșit.

Deoarece există atât de multe nuanțe despre cum să utilizați robots.txt, asigurați-vă că citiți introducerea Google la robots.txt.

Aveți probleme de indexare sau alte probleme care necesită expertiză tehnică SEO? Dacă doriți o consultație gratuită și o ofertă de servicii, contactați-ne astăzi.