Fișiere Robots.txt: de ce este crucial pentru SEO

Publicat: 2022-05-05

Fișierele Robots.txt, cunoscute și sub numele de protocol de excludere a robotului, sunt un instrument indispensabil pentru SEO. Acest fișier text informează crawlerele motoarelor de căutare care pagini pot fi accesate și indexate ulterior. De asemenea, fișierele Robots.txt împiedică crawlerele să acceseze anumite părți ale site-ului dvs. Acest lucru este util dacă doriți să împiedicați indexarea paginilor care nu sunt publice. Acestea pot include pagini care sunt încă în curs de dezvoltare sau pagini de conectare online. Dacă site-ul dvs. este deosebit de extins, Robots.txt este de asemenea util pentru a vă asigura că cele mai relevante pagini sunt indexate.

Prin prezentarea cererilor dvs. într-un fișier Robots.txt, motoarele de căutare vor putea accesa doar paginile pe care le doriți. Acest lucru nu numai că vă oferă un grad ridicat de confidențialitate, dar vă maximizează și bugetul de accesare cu crawlere. Ești interesat să afli mai multe? Citiți mai departe pentru un ghid aprofundat despre motivul pentru care fișierele Robots.txt sunt esențiale pentru SEO.

Robots.txt explicat

Motoarele de căutare majore precum Google și Bing trimit așa-numitele „crawlere” pentru a căuta prin site-uri web. Cunoscuți altfel sub numele de „roboți” sau „păianjeni”, aceste crawler-uri oferă motoarele de căutare informații vitale, astfel încât site-ul dvs. să poată fi indexat corect în paginile cu rezultate ale motoarelor de căutare (SERP-uri). Acest lucru face ca utilizatorii de internet să vă descopere mai ușor site-ul prin introducerea de interogări în motoarele de căutare. Un fișier Robots.txt subliniază clar ce pagini pot fi căutate și ce pagini ar trebui să evite roboții.

Doriți să blocați accesul tuturor crawlerelor motoarelor de căutare a paginii dvs. de conectare a clienților? Următoarea comandă Robots.txt poate fi utilizată:

Agent utilizator: *
Nu permiteți: websitename.com/customer-login

De asemenea, puteți personaliza comenzile pentru a se concentra pe un anumit motor de căutare. Dacă doriți doar să împiedicați crawlerele Google să acceseze paginile dvs., ar putea fi utilizată următoarea comandă:

Agent utilizator: Googlebot
Nu permiteți: websitename.com/customer-login

Pentru a vă ușura viața, puteți adăuga câte pagini doriți la lista de interzise. Odată ce ați creat un fișier Robots.txt, acesta ar trebui să fie plasat în directorul principal al site-ului dvs. web. Folosind exemplele de mai sus ca ghid, adresa URL a unui fișier Robots.txt ar trebui să citească cam așa:

https://www.websitename.com/robots.txt

De ce blocați accesul la paginile web?

Blocarea accesului la anumite pagini web va ajuta la consolidarea eforturilor dvs. de SEO. Ca atare, va trebui să înțelegeți când să puneți în joc un fișier Robots.txt. Dacă site-ul dvs. web include pagini duplicat, nu trebuie să permiteți crawlerilor să le indexeze. De ce? Indexarea conținutului duplicat poate fi dăunătoare pentru SEO.

Deși Google și alte motoare de căutare nu vă vor impune penalități pentru conținut duplicat, indexarea inutilă a paginilor duplicate poate face mai dificilă clasarea corectă a paginilor dvs. cele mai valoroase.

Fișierele Robots.txt facilitează, de asemenea, să profitați la maximum de bugetul de accesare cu crawlere. Bot crawling este o marfă valoroasă care vă poate crește performanța SEO. Cu toate acestea, accesările simultane cu crawlere se pot dovedi copleșitoare pentru site-urile mai mici. Site-urile mai mari, sau cele cu autoritate înaltă, tind să aibă un permis de accesare cu crawlere mai mare.

Totuși, site-urile mai puțin stabilite trebuie să funcționeze cu bugete relativ modeste. Instalarea Robots.txt înseamnă că puteți acorda prioritate celor mai importante pagini ale site-ului dvs. web, asigurându-vă că bugetul de accesare cu crawlere nu este irosit pe pagini secundare și conținut superflu.

De asemenea, pot exista pagini web pe care nu doriți să le poată accesa fiecare utilizator. Dacă site-ul dvs. oferă un serviciu sau include o pâlnie de vânzări, există numeroase pagini pe care veți dori să le afișați clienților doar după ce aceștia au finalizat o anumită acțiune. Dacă încurajați aceste acțiuni cu coduri de reducere sau recompense de loialitate, veți dori să le acceseze doar utilizatorii care au finalizat o călătorie a clientului. Prin blocarea acestor pagini, împiedicați utilizatorii ocazionali să găsească aceste informații prin intermediul interogărilor motorului de căutare.

Fișierele Robots.txt sunt, de asemenea, utile pentru a se asigura că motoarele de căutare nu pot indexa anumite materiale, cum ar fi imaginile private. Ele pot fi, de asemenea, utilizate pentru a identifica locația unui sitemap, precum și pentru a preveni supraîncărcarea serverelor dacă roboții încearcă să indexeze imaginile simultan.

Cum se creează un fișier Robots.txt

Acum am explorat motivele pentru care este posibil să aveți nevoie de un fișier Robots.txt, putem investiga cum să creați unul. Cel mai simplu mod de a crea un fișier Robots.txt este să utilizați Instrumentele Google pentru webmasteri. Odată ce ați creat un cont, faceți clic pe „acces crawler” și apoi mergeți la „configurarea site-ului”. După ce ați accesat această parte a meniului, faceți clic pe „generați robots.txt”. Acest instrument facilitează crearea unui fișier Robots.txt.

Pentru a bloca accesul la pagini cu crawler, selectați pur și simplu opțiunea „blocați”. Apoi puteți selecta „User-Agent” pentru a specifica ce crawler-uri ale motoarelor de căutare doriți să blocați. Acum, puteți introduce directoarele site-ului la care doriți să restricționați accesul. În loc să tastați întreaga adresă URL a paginii țintă, trebuie doar să adăugați extensia în „directoare și fișiere”. Cu alte cuvinte, dacă doriți să blocați accesul crawler-ului la pagina dvs. de conectare a clientului, trebuie pur și simplu să tastați:

/client-login

După ce ați finalizat ce pagini doriți să blocați, puteți da clic pe „adăugați regulă” pentru a genera Robots.txt. Robots.txt care este generat vă va oferi și opțiunea „Permiteți” excepții, ceea ce este util dacă doriți doar să restricționați anumite motoare de căutare de la indexarea site-ului dvs.

Cu totul finalizat, acum puteți face clic pe pictograma de descărcare pentru a produce un fișier final Robots.txt.

Cum instalez un fișier Robots.txt?

Acum toată munca grea este îngrijită de tine, este timpul să instalezi fișierul Robots.txt. Puteți face acest lucru singur prin încărcarea fișierului cu o soluție FTP. Cu toate acestea, dacă există câteva lacune în cunoștințele dvs. de programare, cel mai bine ar fi să apelați la serviciile unui expert. Dacă atribuiți sarcina unui programator, asigurați-vă că descrieți exact ce pagini doriți să fie blocate și specificați orice excepții.

Fișiere Robots.txt: lucruri cheie de reținut

Pentru a vă asigura că utilizați cât mai bine fișierele Robots.txt, există câteva bune practici de reținut. Poate părea evident, dar asigurați-vă că faceți un bilanț al paginilor dvs. și nu blocați accesul la paginile de mare valoare pe care doriți să le accesați cu crawlere și să le indexați.

Deși mulți utilizatori apelează la Robots.txt pentru a bloca afișarea informațiilor sensibile pe paginile cu rezultate ale motorului de căutare, nu este cea mai bună modalitate de a ține un astfel de material departe de ochiul public. Dacă alte pagini leagă la cele pe care le-ați blocat, există întotdeauna șansa ca acestea să ajungă să fie indexate. Utilizați o abordare alternativă pentru a păstra informațiile sensibile ascunse.

Gânduri finale

Pentru a vă asigura că fișierul Robots.txt nu are un impact negativ asupra SEO, trebuie să îl mențineți actualizat. De fiecare dată când adăugați pagini, directoare sau fișiere noi pe site-ul dvs. web, va trebui să actualizați fișierul Robots.txt în consecință. Deși acest lucru este necesar numai dacă adăugați conținut care trebuie restricționat, revizuirea fișierului Robots.txt este o practică bună. Nu numai că garantează că conținutul site-ului dvs. este cât mai sigur posibil, ci poate beneficia și strategia dvs. de SEO.

Implementând eficient Robots.txt, vă puteți maximiza bugetul de accesare cu crawlere și vă puteți prioritiza cele mai importante pagini, puteți preveni indexarea conținutului duplicat și puteți minimiza șansa ca accesările simultane cu crawlere să forțeze serverele dvs.

Biografia autorului:

Greg Tuohy este Managing Director al Docutec, un furnizor de software de imprimantă și automatizare de birou. Greg a fost numit Managing Director în iunie 2011 și este forța motrice din spatele echipei Cantec Group. Imediat după ce a absolvit o diplomă de științe la UCC în 1995, Greg s-a alăturat afacerii familiei de copiatoare/imprimante. Docutec produce și imprimante pentru casele de familie, cum ar fi imprimante multifuncționale.