File Robots.txt: perché è fondamentale per la SEO

Pubblicato: 2022-05-05

I file Robots.txt, altrimenti noti come protocollo di esclusione robot, sono uno strumento indispensabile per la SEO. Questo file di testo informa i crawler dei motori di ricerca a quali pagine è possibile accedere e successivamente indicizzarle. I file Robots.txt impediscono inoltre ai crawler di accedere ad alcune parti del tuo sito web. Ciò è utile se si desidera impedire l'indicizzazione di pagine non pubbliche. Ciò potrebbe includere pagine ancora in fase di sviluppo o pagine di accesso online. Se il tuo sito web è particolarmente esteso, Robots.txt è utile anche per garantire che le tue pagine più rilevanti siano indicizzate.

Delineando le tue richieste in un file Robots.txt, i motori di ricerca potranno accedere solo alle pagine che desideri. Questo non solo ti offre un alto grado di privacy, ma massimizza anche il tuo crawl budget. Interessato a saperne di più? Continua a leggere per una guida approfondita sul motivo per cui i file Robots.txt sono essenziali per la SEO.

Spiegazione di Robots.txt

I principali motori di ricerca come Google e Bing inviano i cosiddetti "crawler" per eseguire ricerche nei siti Web. Altrimenti noti come "robot" o "spider", questi crawler forniscono informazioni vitali ai motori di ricerca in modo che il tuo sito possa essere correttamente indicizzato nelle pagine dei risultati dei motori di ricerca (SERP). Ciò rende più facile per gli utenti Internet scoprire il tuo sito inserendo query nei motori di ricerca. Un file Robots.txt delinea chiaramente quali pagine possono essere cercate e quali pagine i robot dovrebbero evitare.

Stai cercando di impedire a tutti i crawler dei motori di ricerca di accedere alla pagina di accesso del tuo cliente? È possibile utilizzare il seguente comando Robots.txt:

User-Agente: *
Non consentire: websitename.com/customer-login

Puoi anche personalizzare i comandi per concentrarti su un particolare motore di ricerca. Se desideri solo impedire ai crawler di Google di accedere alle tue pagine, è possibile utilizzare il seguente comando:

User-Agente: Googlebot
Non consentire: websitename.com/customer-login

Per semplificarti la vita, puoi aggiungere tutte le pagine che desideri all'elenco dei non consentiti. Dopo aver creato un file Robots.txt, dovrebbe essere posizionato nella directory principale del tuo sito web. Usando gli esempi sopra come guida, l'URL di un file Robots.txt dovrebbe leggere qualcosa del genere:

https://www.websitename.com/robots.txt

Perché bloccare l'accesso alle pagine Web?

Il blocco dell'accesso a determinate pagine Web ti aiuterà a rafforzare i tuoi sforzi SEO. Pertanto, dovrai capire quando mettere in gioco un file Robots.txt. Se il tuo sito web include pagine duplicate, non devi consentire ai crawler di indicizzarle. Come mai? L'indicizzazione di contenuti duplicati può essere dannosa per la tua SEO.

Sebbene Google e altri motori di ricerca non ti imporranno sanzioni per contenuti duplicati, un'inutile indicizzazione delle pagine duplicate può rendere più difficile un buon posizionamento delle tue pagine più preziose.

I file Robots.txt consentono inoltre di ottenere il massimo dal tuo budget di scansione. Il bot crawling è un bene prezioso che può aumentare le prestazioni SEO. Tuttavia, le scansioni simultanee possono rivelarsi opprimenti per i siti più piccoli. I siti più grandi, o quelli con autorità elevata, tendono ad avere una maggiore capacità di scansione.

Tuttavia, i siti meno affermati devono funzionare con budget relativamente modesti. L'installazione di Robots.txt significa che puoi dare la priorità alle pagine più importanti del tuo sito Web, assicurandoti che il tuo budget di scansione non venga sprecato in pagine secondarie e contenuti superflui.

Potrebbero esserci anche pagine Web a cui non si desidera che tutti gli utenti possano accedere. Se il tuo sito web offre un servizio o include una canalizzazione di vendita, ci sono numerose pagine che vorrai mostrare ai clienti solo dopo che hanno completato una determinata azione. Se intendi incentivare queste azioni con codici sconto o premi fedeltà, vorrai solo gli utenti che hanno completato un percorso del cliente per accedervi. Bloccando queste pagine, impedisci agli utenti occasionali di imbattersi in queste informazioni tramite le query dei motori di ricerca.

I file Robots.txt sono utili anche per impedire ai motori di ricerca di indicizzare determinati materiali, come le immagini private. Possono anche essere utilizzati per individuare la posizione di una mappa del sito, nonché per impedire il sovraccarico dei server se i bot tentano di indicizzare le immagini contemporaneamente.

Come creare un file Robots.txt

Ora che abbiamo esplorato i motivi per cui potresti aver bisogno di un file Robots.txt, possiamo studiare come crearne uno. Il modo più semplice per creare un file Robots.txt è utilizzare Strumenti per i Webmaster di Google. Dopo aver creato un account, fai clic su "accesso crawler" e quindi vai su "configurazione sito". Dopo aver effettuato l'accesso a questa parte del menu, fai clic su "genera robots.txt". Questo strumento semplifica la creazione di un file Robots.txt.

Per bloccare le pagine di accesso del crawler, seleziona semplicemente l'opzione 'Blocca'. Puoi quindi selezionare "User-Agent" per specificare quali crawler dei motori di ricerca desideri bloccare. Ora puoi digitare le directory del sito a cui vuoi limitare l'accesso. Invece di digitare l'intero URL della pagina di destinazione, devi solo aggiungere l'estensione in "directory e file". In altre parole, se desideri bloccare l'accesso del crawler alla pagina di accesso del tuo cliente, devi semplicemente digitare:

/accesso cliente

Una volta finalizzate le pagine che desideri bloccare, puoi fare clic su "aggiungi regola" per generare Robots.txt. Il Robots.txt che viene generato ti darà anche l'opzione di "Consenti" eccezioni, il che è utile se vuoi solo impedire a determinati motori di ricerca di indicizzare il tuo sito.

Con tutto completato, ora puoi fare clic sull'icona di download per produrre un file Robots.txt finale.

Come installo un file Robots.txt?

Ora tutto il duro lavoro è affidato a te, è ora di installare il tuo file Robots.txt. Puoi farlo tu stesso caricando il tuo file con una soluzione FTP. Tuttavia, se ci sono alcune lacune nelle tue conoscenze di programmazione, potrebbe essere meglio avvalersi dei servizi di un esperto. Se stai assegnando l'attività a un programmatore, assicurati di definire esattamente quali pagine desideri vengano bloccate e di specificare eventuali eccezioni.

File Robots.txt: cose chiave da ricordare

Per assicurarti di utilizzare al meglio i file Robots.txt, ci sono alcune best practice da tenere a mente. Può sembrare ovvio, ma assicurati di fare il punto sulle tue pagine e di non bloccare l'accesso alle pagine di alto valore di cui desideri eseguire la scansione e l'indicizzazione.

Sebbene molti utenti si rivolgano a Robots.txt per impedire la visualizzazione di informazioni sensibili nelle pagine dei risultati dei motori di ricerca, non è il modo migliore per tenere tale materiale fuori dagli occhi del pubblico. Se altre pagine si collegano a quelle che hai bloccato, c'è sempre la possibilità che vengano indicizzate. Utilizzare un approccio alternativo per nascondere alla vista le informazioni riservate.

Pensieri finali

Per assicurarti che il tuo file Robots.txt non abbia un impatto negativo sulla tua SEO, devi tenerlo aggiornato. Ogni volta che aggiungi nuove pagine, directory o file al tuo sito web, dovrai aggiornare il tuo file Robots.txt di conseguenza. Sebbene ciò sia necessario solo se stai aggiungendo contenuto che deve essere limitato, la revisione del file Robots.txt è una buona pratica. Non solo garantisce che il contenuto del tuo sito sia il più sicuro possibile, ma può anche avvantaggiare la tua strategia SEO.

Implementando Robots.txt in modo efficace, puoi massimizzare il tuo budget di scansione e dare priorità alle tue pagine più importanti, prevenire l'indicizzazione di contenuti duplicati e ridurre al minimo la possibilità che le scansioni simultanee costringano i tuoi server a fermarsi.

Biografia dell'autore:

Greg Tuohy è l'amministratore delegato di Docutec, una stampante aziendale e un fornitore di software per l'automazione dell'ufficio. Greg è stato nominato amministratore delegato nel giugno 2011 ed è la forza trainante del team del Gruppo Cantec. Immediatamente dopo aver completato una laurea in scienze presso l'UCC nel 1995, Greg è entrato a far parte dell'azienda di famiglia di fotocopiatrici/stampanti. Docutec produce anche stampanti per le case familiari, come le stampanti multifunzione.