Cos'è robots.txt? Una guida per principianti per inchiodarlo con esempi

Pubblicato: 2022-03-29

La figura del robot in legno si trova su un pezzo di erba.
Ah, robots.txt — un file minuscolo con grandi implicazioni. Questo è un elemento SEO tecnico che non volete sbagliare, gente.

In questo articolo spiegherò perché ogni sito web ha bisogno di un robots.txt e come crearne uno (senza causare problemi alla SEO). Risponderò alle domande frequenti più comuni e includerò esempi di come eseguirlo correttamente per il tuo sito web. Ti fornirò anche una guida scaricabile che copre tutti i dettagli.

Contenuti:

Cos'è robots.txt?
Perché robots.txt è importante?
Ma è necessario robots.txt?
Quali problemi possono verificarsi con robots.txt?
Come funziona robots.txt?
Suggerimenti per creare un robots.txt senza errori
Il tester robots.txt
Guida al protocollo di esclusione dei robot (download gratuito)

Cos'è robots.txt?

Robots.txt è un file di testo che gli editori di siti Web creano e salvano nella radice del loro sito Web. Il suo scopo è dire ai crawler web automatizzati come i bot dei motori di ricerca quali pagine non sottoporre a scansione sul sito web. Questo è anche noto come protocollo di esclusione dei robot.

Robots.txt non garantisce che gli URL esclusi non vengano indicizzati per la ricerca. Questo perché gli spider dei motori di ricerca possono ancora scoprire che quelle pagine esistono tramite altre pagine web che si collegano ad esse. Oppure, le pagine potrebbero essere ancora indicizzate dal passato (ne parleremo più avanti).

Robots.txt inoltre non garantisce assolutamente che un bot non eseguirà la scansione di una pagina esclusa, poiché si tratta di un sistema volontario. Sarebbe raro che i principali robot dei motori di ricerca non aderissero alle tue direttive. Ma altri che sono cattivi web robot, come spambot, malware e spyware, spesso non seguono gli ordini.

Ricorda, il file robots.txt è accessibile pubblicamente. Puoi semplicemente aggiungere /robots.txt alla fine dell'URL di un dominio per vedere il suo file robots.txt (come il nostro qui). Quindi non includere file o cartelle che potrebbero includere informazioni business-critical. E non fare affidamento sul file robots.txt per proteggere i dati privati o sensibili dai motori di ricerca.

OK, con questi avvertimenti fuori mano, andiamo avanti...

Perché robots.txt è importante?

I bot dei motori di ricerca hanno la direttiva per eseguire la scansione e l'indicizzazione delle pagine Web. Con un file robots.txt, puoi escludere selettivamente pagine, directory o l'intero sito dalla scansione.

Questo può essere utile in molte situazioni diverse. Ecco alcune situazioni in cui vorrai utilizzare il tuo robots.txt:

Per bloccare determinate pagine o file che non devono essere sottoposti a scansione/indicizzazione (come pagine non importanti o simili)
Per interrompere la scansione di alcune parti del sito Web durante l'aggiornamento
Per dire ai motori di ricerca la posizione della tua mappa del sito
Per dire ai motori di ricerca di ignorare determinati file sul sito come video, file audio, immagini, PDF, ecc. e di non visualizzarli nei risultati di ricerca
Per garantire che il tuo server non sia sopraffatto dalle richieste*

*L'utilizzo di robots.txt per bloccare la scansione non necessaria è un modo per ridurre il carico sul server e aiutare i bot a trovare i tuoi buoni contenuti in modo più efficiente. Google fornisce un grafico a portata di mano qui. Inoltre, Bing supporta la direttiva crawl-delay, che può aiutare a prevenire troppe richieste ed evitare di sovraccaricare il server.

Naturalmente, ci sono molte applicazioni di robots.txt e ne descriverò altre in questo articolo.

Ma robots.txt è necessario?

Ogni sito web dovrebbe avere un file robots.txt anche se è vuoto. Quando i bot dei motori di ricerca arrivano al tuo sito web, la prima cosa che cercano è un file robots.txt.

Se non ne esiste nessuno, agli spider viene notificato un errore 404 (non trovato). Sebbene Google affermi che Googlebot può continuare ed eseguire la scansione del sito anche se non è presente il file robots.txt, riteniamo che sia meglio caricare il primo file richiesto da un bot piuttosto che produrre un errore 404.

Quali problemi possono verificarsi con robots.txt?

Questo semplice piccolo file può causare problemi alla SEO se non stai attento. Ecco un paio di situazioni a cui prestare attenzione.

1. Blocco accidentale dell'intero sito

Questo problema accade più spesso di quanto pensi. Gli sviluppatori possono utilizzare robots.txt per nascondere una sezione del sito nuova o riprogettata mentre lo stanno sviluppando, ma poi dimenticarsi di sbloccarlo dopo il lancio. Se si tratta di un sito esistente, questo errore può causare un improvviso aumento del posizionamento nei motori di ricerca.

È utile poter disattivare la scansione mentre prepari un nuovo sito o una nuova sezione del sito per il lancio. Ricorda solo di cambiare quel comando nel tuo robots.txt quando il sito diventa attivo.

2. Escluse pagine già indicizzate

Il blocco delle pagine robots.txt indicizzate fa sì che queste rimangano bloccate nell'indice di Google.

Se escludi le pagine che sono già nell'indice del motore di ricerca, rimarranno lì. Per rimuoverli effettivamente dall'indice, dovresti impostare un tag "noindex" di meta robot sulle pagine stesse e lasciare che Google esegua la scansione e lo elabori. Una volta eliminate le pagine dall'indice, bloccale in robots.txt per impedire a Google di richiederle in futuro.

Come funziona robots.txt?

Per creare un file robots.txt, puoi utilizzare una semplice applicazione come Blocco note o TextEdit. Salvalo con il nome file robots.txt e caricalo nella radice del tuo sito web come www.domain.com/robots.txt —— è qui che lo cercheranno gli spider.

Un semplice file robots.txt sarebbe simile a questo:

User-agent: *
Non consentire: /nome-directory/

Google fornisce una buona spiegazione di cosa significano le diverse righe in un gruppo all'interno del file robots.txt nel suo file della guida sulla creazione di robots.txt:

Ogni gruppo è costituito da più regole o direttive (istruzioni), una direttiva per riga.
Un gruppo fornisce le seguenti informazioni:
A chi si rivolge il gruppo (l'agente utente)
A quali directory o file può accedere l'agente
A quali directory o file non può accedere l'agente

Spiegherò di più sulle diverse direttive in un file robots.txt in seguito.

Direttive Robots.txt

La sintassi comune utilizzata in robots.txt include quanto segue:

User-agent

User-agent si riferisce al bot in cui stai dando i comandi (ad esempio, Googlebot o Bingbot). Puoi avere più direttive per diversi programmi utente. Ma quando usi il carattere * (come mostrato nella sezione precedente), questo è un catch-all che significa tutti i programmi utente. Puoi vedere un elenco di programmi utente qui.

Non consentire

La regola Disallow specifica la cartella, il file o anche un'intera directory da escludere dall'accesso dei robot Web. Gli esempi includono quanto segue:

Consenti ai robot di eseguire lo spider dell'intero sito Web:

User-agent: *
Non consentire:

Disattiva tutti i robot dall'intero sito web:

User-agent: *
Non consentire: /

Disabilita tutti i robot da “/myfolder/” e tutte le sottodirectory di “myfolder”:

User-agent: *
Non consentire: /la mia cartella/

Impedisci a tutti i robot di accedere a qualsiasi file che inizi con "myfile.html":

User-agent: *
Non consentire: /miofile.html

Impedisci a Googlebot di accedere a file e cartelle che iniziano con "my":

User-agent: googlebot
Non consentire: /my

Permettere

Questo comando è applicabile solo a Googlebot e gli dice che può accedere a una cartella di sottodirectory o a una pagina web anche quando la sua directory principale o pagina web non è consentita.

Prendi il seguente esempio: Disabilita tutti i robot dalla cartella /scripts/tranne page.php:

Non consentire: /script/
Consenti: /scripts/page.php

Ritardo di scansione

Questo dice ai robot quanto tempo devono aspettare per eseguire la scansione di una pagina web. I siti Web potrebbero utilizzarlo per preservare la larghezza di banda del server. Googlebot non riconosce questo comando e Google ti chiede di modificare la velocità di scansione tramite Search Console. Se possibile, evita il ritardo della scansione o utilizzalo con cautela poiché può influire in modo significativo sulla scansione tempestiva ed efficace di un sito Web.

Mappa del sito

Indica ai bot dei motori di ricerca dove trovare la tua mappa del sito XML nel tuo file robots.txt. Esempio:

User-agent: *
Non consentire: /nome-directory/
Mappa del sito: https://www.domain.com/sitemap.xml

Per ulteriori informazioni sulla creazione di mappe del sito XML, vedere questo: Che cos'è una Sitemap XML e come faccio a crearne una?

Caratteri jolly

Esistono due caratteri che possono aiutare a indirizzare i robot su come gestire tipi di URL specifici:

Il personaggio. Come accennato in precedenza, può applicare direttive a più robot con un insieme di regole. L'altro uso è abbinare una sequenza di caratteri in un URL per non consentire tali URL.

Ad esempio, la seguente regola impedirebbe a Googlebot di accedere a qualsiasi URL contenente "pagina":

User-agent: googlebot
Non consentire: /*pagina

Il carattere $. $ indica ai robot di abbinare qualsiasi sequenza alla fine di un URL. Ad esempio, potresti voler bloccare la scansione di tutti i PDF sul sito Web:

User-agent: *
Non consentire: /*.pdf$

Nota che puoi combinare i caratteri jolly $ e * e possono essere combinati per consentire e non consentire direttive.

Ad esempio, Disabilita tutti i file asp:

User-agent: *
Non consentire: /*asp$

Ciò non escluderà i file con stringhe di query o cartelle a causa del $ che indica la fine
Escluso a causa del carattere jolly che precede asp – /pretty-wasp
Escluso a causa del carattere jolly che precede asp – /login.asp
Non escluso a causa del $ e dell'URL che include una stringa di query (?password-dimenticata=1) – /login.asp?password-dimenticata=1

Non scansione e non indicizzazione

Se non desideri che Google indicizzi una pagina, esistono altri rimedi oltre al file robots.txt. Come Google sottolinea qui:

Quale metodo devo usare per bloccare i crawler?
robots.txt: utilizzalo se la scansione dei tuoi contenuti sta causando problemi al tuo server. Ad esempio, potresti voler impedire la scansione di infiniti script di calendario. Non dovresti utilizzare robots.txt per bloccare i contenuti privati (usa invece l'autenticazione lato server) o gestire la canonizzazione. Per assicurarti che un URL non sia indicizzato, utilizza invece il meta tag robots o l'intestazione HTTP X-Robots-Tag.
meta tag robots: utilizzalo se hai bisogno di controllare come una singola pagina HTML viene mostrata nei risultati di ricerca (o per assicurarti che non venga mostrata).
Intestazione HTTP X-Robots-Tag: usala se hai bisogno di controllare come il contenuto non HTML viene mostrato nei risultati di ricerca (o per assicurarti che non venga mostrato).

Ed ecco altre indicazioni da Google:

Il blocco di Google dalla scansione di una pagina rischia di rimuovere la pagina dall'indice di Google.
Tuttavia, robots.txt Disallow non garantisce che una pagina non venga visualizzata nei risultati: Google può comunque decidere, sulla base di informazioni esterne come i collegamenti in entrata, che è rilevante. Se desideri bloccare esplicitamente l'indicizzazione di una pagina, dovresti invece utilizzare il meta tag noindex robots o l'intestazione HTTP X-Robots-Tag. In questo caso, non devi disattivare la pagina in robots.txt, perché la pagina deve essere sottoposta a scansione affinché il tag possa essere visto e rispettato.

Suggerimenti per la creazione di un robots.txt senza errori

Ecco alcuni suggerimenti da tenere a mente durante la creazione del file robots.txt:

I comandi fanno distinzione tra maiuscole e minuscole. Ad esempio, hai bisogno di una "D" maiuscola in Disallow .
Includere sempre uno spazio dopo i due punti nel comando.
Quando si esclude un'intera directory, inserire una barra prima e dopo il nome della directory, in questo modo: /nome-directory/
Tutti i file non specificamente esclusi verranno inclusi per la scansione dei bot.

Il tester robots.txt

Testa sempre il tuo file robots.txt. È più comune pensare che gli editori di siti Web sbaglino, il che può distruggere la tua strategia SEO (come se impedissi la scansione di pagine importanti o dell'intero sito Web).

Utilizza lo strumento tester robots.txt di Google. Puoi trovare informazioni a riguardo qui.

Guida al protocollo di esclusione dei robot

Se hai bisogno di un'immersione più approfondita rispetto a questo articolo, scarica la nostra Guida al protocollo di esclusione dei robot . È un PDF gratuito che puoi salvare e stampare come riferimento per darti molte specifiche su come costruire il tuo robots.txt.

Pensieri di chiusura

Il file robots.txt è un file apparentemente semplice, ma consente agli editori di siti Web di fornire direttive complesse su come vogliono che i robot eseguano la scansione di un sito Web. Ottenere questo file corretto è fondamentale, in quanto potrebbe cancellare il tuo programma SEO se fatto in modo errato.

Poiché ci sono così tante sfumature su come utilizzare robots.txt, assicurati di leggere l'introduzione di Google a robots.txt.

Hai problemi di indicizzazione o altri problemi che richiedono competenze tecniche SEO? Se desideri un preventivo gratuito di consulenza e servizi, contattaci oggi.