XML Sitemap: consigli chiave per l'ottimizzazione
Pubblicato: 2021-03-26Il Sitemap.xml sul tuo sito può fungere da buona navigazione per le pagine che vuoi che il bot di Google indicizzi. Ti aiuta a trovare le tue pagine principali più velocemente, anche se non hai un buon collegamento interno.
In questo articolo presenteremo vari consigli per l'ottimizzazione della Sitemap XML e perché è bene farlo.
Funzionalità e vantaggi
Semplifica il funzionamento dei bot e consenti la possibilità di ottenere "report" per pagine e collegamenti del tuo sito che non potrebbero essere facilmente trovati.
Alcuni dei vantaggi SEO sono i seguenti:
- indicizzazione più veloce: i motori di ricerca troveranno le nuove pagine molto più velocemente, quindi il processo di indicizzazione e visualizzazione del sito Web nei risultati di ricerca sarà più veloce. La cosa peculiare qui è che può anche aiutarti con la deindicizzazione (maggiori informazioni qui);
- migliore indicizzazione delle pagine interne: i motori di ricerca possono trovare pagine che non sono state trovate durante la scansione del sito web. Ma questo non significa necessariamente che saranno tutti indicizzati.
- monitoraggio delle pagine indicizzate. In combinazione con Google Search Console, puoi scoprire quali URL sono coperti nella Sitemap XML che Google indicizza.
Una Sitemap XML è importante?
È importante per i siti che:
- non hanno una buona struttura o non hanno una buona distribuzione dei link interni;
- avere molte pagine: la mappa del sito XML aiuta i motori di ricerca a trovare pagine nuove o aggiornate;
- non hai molti link in entrata: questo sarà un ottimo modo per trovare le tue pagine.
Requisiti e formati
Google supporta diversi formati di Sitemap. Tutti i formati e gli standard sono disponibili a questo indirizzo: https://www.sitemaps.org/index.html.
Tutti i formati limitano la mappa del sito a 50 MB (non compresso) e 50.000 indirizzi. Se hai un file più grande o più indirizzi, dovrai creare un file indice con tutte le mappe (descritte nell'articolo seguente).
Le raccomandazioni principali sono:
- il file deve essere codificato con UTF-8;
- deve iniziare con un tag aperto e terminare con un tag chiuso come …. ;
- specificare il protocollo standard nel tag;
- tag principale per ogni voce URL;
- specificare l'URL che inizia con il protocollo (https o http) nel tag, che deve partecipare al tag principale per il salvataggio.
Attributi facoltativi aggiuntivi per le mappe del sito XML
Google non utilizza l'attributo sui propri siti. Tutti gli altri attributi sono disponibili, ma dipende dal fatto che verranno riflessi. Pertanto, tieni presente che Google non prende molto sul serio questi tag. Sono:
- – rappresenta la data dell'ultima modifica del file. Deve essere in formato W3C DateTime;
- – la frequenza con cui è probabile che la pagina venga aggiornata. Questo valore fornisce informazioni generali sui motori di ricerca. I valori validi possono essere sempre, orari, giornalieri, settimanali, mensili, annuali, mai.
Va tenuto presente che il valore di questo tag è considerato più un suggerimento che un comando. I robot vedono queste informazioni e ne tengono conto, ma alla fine decidono da soli se utilizzarle, a seconda di molti altri fattori.
- – Dà priorità all'URL rispetto ad altri URL sul tuo sito. I valori validi sono compresi tra 0,0. a 1.0.
Anche in questo caso, va tenuto presente che questa priorità è relativa e non è una condizione obbligatoria per i robot, o almeno non ancora accettata come tale. Tuttavia, se decidi di provarlo, usa la seguente guida:
- 0 – 0.3: Notizie obsolete, informazioni non più valide, ma storicamente utili;
- 4 – 0.7: Articoli del blog, categorie di pagine, domande frequenti;
- 8 – 1.0: Home page, pagine prodotto, tutte le pagine con contenuti ben ottimizzati.
L'esempio seguente mostra una Sitemap che contiene un solo URL e utilizza tutti i tag facoltativi scritti in corsivo .
https://netpeak.bg
15-09-2018
mensile
0.8
Identificazione delle pagine importanti
Aggiungi pagine di alta qualità e quelle ben ottimizzate. La qualità complessiva è di grande importanza per un migliore posizionamento. Questo è un fattore serio per Google che può darti una seria priorità rispetto alla concorrenza.
Non vogliamo visitare pagine di bassa qualità, né i bot di Google. Se lo guidi a migliaia di pagine che non sono utili agli utenti e non sono ben ottimizzate, questo può essere solo dannoso per te. Cosa sono le pagine di alta qualità? In poche parole, quelle sono pagine che:
- avere un contenuto unico sufficiente;
- coinvolgere rapidamente i propri utenti sollecitando azioni (commenti, recensioni, ecc.);
- includere immagini, video, ecc.;
- non violare le norme di Google;
Pagine aperte per l'indicizzazione
Il budget di scansione rappresenta generalmente il numero di pagine scansionate per unità di tempo (giorno, settimana, mese e così via). Pertanto, non è consigliabile sprecarlo inutilmente.
Le pagine che contengono il meta tag "Noindex" non devono essere aggiunte alla mappa del sito. seguire un ordine logico è importante per tutto.
È necessario effettuare un controllo automatizzato e non inserire indirizzi chiusi all'indicizzazione.
Si consiglia di seguire queste istruzioni:
- Se la pagina https://example.com/category/product ha un meta tag “noindex”, non dovrebbe essere incluso nella mappa XML del sito;
- Quando la pagina viene chiusa per l'indicizzazione tramite robots.txt, non dovrebbe essere inclusa nella mappa XML:
Non consentire: /categoria/prodotto
Noindex: /categoria/prodotto
- Se la pagina è chiusa per l'indicizzazione tramite X-Robots-Tag nell'intestazione HTTP, non dovrebbe essere inclusa nella mappa XML del sito:
HTTP/1.1 200 OK
Data: mar, 25 maggio 2010 21:42:43 GMT
(…)
X-Robot-Tag: noindex
(…)
Versioni canoniche delle pagine
L'accesso a una singola pagina tramite più URL con contenuti simili sarà considerato duplicato da Google.

È necessario utilizzare l'attributo "link rel canonical" per indicare al bot quale è la pagina "principale" e che deve essere scansionata e indicizzata.
Ad esempio, se la pagina https://example.com/category/product-1 ha canonico su https://example.com/product, http://example.com/category/product-1 non dovrebbe partecipare a la mappa del sito XML.
Dovresti eseguire un controllo automatizzato poiché l'automazione dei processi ti porterà sicuramente meno mal di testa e ti farà risparmiare tempo per le ispezioni manuali.
Pagine che restituiscono 200 OK
Includere gli indirizzi che restituiscono una risposta 200 OK. È importante effettuare controlli automatici e non includere indirizzi che restituiscono una risposta diversa da 200 OK – ad esempio 404, 301, ecc.
Ad esempio, se la pagina https://example.com/product restituisce una risposta diversa da 200 OK, non dovrebbe partecipare alla mappa del sito.
È possibile utilizzare il seguente strumento per il controllo: https://soft.galinov.com/ per verificare.
Pagine dall'impaginazione
Non è necessario includere assolutamente tutte le pagine in sitemap.xml. Il bot è abbastanza intelligente da poter navigare dalla prima pagina nella categoria pertinente se viene descritto correttamente. Si consiglia di effettuare le seguenti operazioni:
- includere solo le pagine principali delle categorie;
- contrassegnare le pagine con rel = next / rel = prev in modo che il robot possa vedere la connessione tra di loro;
- ogni pagina dell'impaginazione dovrebbe avere una guida canonica a se stessa, non alla pagina principale, perché se è il contrario, significa che stai dicendo al bot "Non importa che ho 5.000 prodotti e 20 pagine, loro sono gli stessi del primo”.
Ad esempio, la pagina https://example.com/category/page-2 non dovrebbe partecipare alla mappa. Qui puoi trovare l'opinione ufficiale di Google, così come i loro consigli:
Riduci al minimo la dimensione del file
Google e Bing hanno aumentato le dimensioni dei file da 10 MB a 50 MB nel 2016, ma è comunque buona norma mantenere la tua Sitemap il più piccola possibile.
Naturalmente, non è qualcosa di cui preoccuparsi, ma se la tua mappa del sito contiene più di 50.000 URL o supera i 50 MB di dimensione, dovrebbe essere suddivisa in più mappe XML. In questo caso, i riferimenti a tutte le mappe XML dovrebbero essere descritti in un file di indice della mappa del sito separato.
Che cos'è un file di indice della Sitemap XML
Puoi inviare più file Sitemap, ma ogni file deve essere conforme alle regole di cui sopra. Se lo desideri, puoi comprimere i file utilizzando gzip per ridurne le dimensioni in base ai requisiti.
Il formato XML del file di indice è molto simile al normale formato della mappa del sito. Deve contenere:
- apri e chiudi tag come ;
- una voce per ciascuna Sitemap con l'attributo XML principale ;
- tag all'attributo principale.
È incluso anche l'attributo consigliato.
Nota: il file di indice Sitemap può elencare solo le mappe che si trovano sullo stesso sito. Per esempio:
https://example.com/sitemap_index.xml può includere mappe su https://example.com, ma non su https://www.saitprimer.com o https://www.example.com
Come per tutti gli altri file, il file di indice deve essere codificato con UTF-8.
L'esempio seguente mostra un indice Sitemap che elenca due mappe:
http://www.example.com/sitemap1.xml.gz
2018-10-01T18:23:17+00:00
http://www.example.com/sitemap2.xml.gz
01-01-2017
Descrizione della versione mobile
Dobbiamo aiutare il bot di Google a trovare i nostri contenuti e comprendere la connessione tra le pagine desktop e mobili. Nella mappa del sito XML deve essere aggiunto l'attributo rel = “alternate” per le pagine della versione desktop, come segue:
xmlns:xhtml="http://www.w3.org/1999/xhtml">
http://www.example.com/page-1/
<xhtml: collegamento
rel="alternativo"
media="solo schermo e (larghezza massima: 640px)"
href="http://m.example.com/page-1″ />
Tieni presente che ogni pagina desktop deve corrispondere a una pagina della versione mobile. Si sconsiglia, ad esempio, di collegare più pagine desktop tramite rel = “alternative” ad una pagina della versione mobile e viceversa.
Devi anche controllare i reindirizzamenti. È importante che la pagina desktop corrisponda allo stesso contenuto nella versione mobile e non venga reindirizzata a un'altra. Ulteriori informazioni qui.
Come i bot possono trovare la tua Sitemap XML
Quando hai terminato tutta l'automazione del processo e l'hai caricato sul tuo server (o generato da un plug-in), devi lasciare un indizio dove i bot possono trovarlo.
Il modo migliore è includere un collegamento ad esso nel file robots.txt. Questo è anche chiamato Sitemap Discovery ed è qualcosa che Google, Bing e Yahoo hanno introdotto nel 2007 per aiutare i loro robot a trovare Sitemap XML.
Tutto quello che devi fare è includere il percorso completo della mappa o del file di indice.
Corretta traslitterazione degli indirizzi
La documentazione ufficiale di Google (Crea e invia una Sitemap) sottolinea che tutti i valori dei dati (inclusi gli URL) devono contenere solo caratteri ASCII. Non può contenere codici di controllo o caratteri speciali come * o {}.
Se l'URL del tuo sito contiene questi caratteri, riceverai un errore quando proverai ad aggiungerlo.
Invia la tua mappa a Google
Puoi inviare la tua mappa del sito a Google tramite Google Search Console.
Verificare la presenza di eventuali errori prima di inviare. È importante eliminare eventuali errori che potrebbero essere un ostacolo all'indicizzazione delle pagine di destinazione chiave.
Idealmente, il numero di pagine indicizzate dovrebbe essere uguale al numero di pagine inviate.
Conclusione
- Sii coerente: se la pagina è bloccata da robots.txt o da "noindex", è meglio che non sia nella tua mappa XML.
- Automatizza il tuo processo: tutti i consigli di cui sopra dovrebbero essere disponibili per l'automazione, in quanto ciò ti farà risparmiare tempo, aiuterà il budget di scansione a rimanere ottimizzato e ti farà risparmiare anche un sacco di mal di testa.
- Se hai un sito molto grande, usa un file di indice con mappe diverse che ti faranno risparmiare tempo sul server e copriranno tutte le pagine importanti del tuo sito.