Ci possono essere momenti in cui il crawler SISTRIX non può acquisire completamente tutto il contenuto di una pagina. Qui, diamo un'occhiata ai motivi più comuni e ai motivi e ti mostriamo le soluzioni a questi problemi.
Il cingolato SISTRIX
Tutti gli accessi relativi al SISTRIX Toolbox vengono effettuati dal crawler SISTRIX. Questo Crawler può essere identificato da due tratti distinti: da un lato è lo user-agent, che viene inviato ogni volta che si accede a una pagina. Per impostazione predefinita, lo user-agent è:
Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
D'altra parte, tutti gli indirizzi IP del crawler SISTRIX puntano al nome host del dominio “sistrix.net”. Il nostro crawler sull'IP 136.243.92.8 , ad esempio, restituirebbe il Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net .
Il crawler SISTRIX tiene costantemente d'occhio la velocità di caricamento delle pagine visitate e regolerà la velocità con cui vengono richieste nuove pagine, a questa velocità. In questo modo, possiamo assicurarci di non sovraccaricare il server web. Maggiori informazioni sono disponibili su crawler.sistrix.net.
In Optimizer hai anche la possibilità di controllare lo user-agent e l'intensità di scansione del crawler di Optimizer. Troverai queste impostazioni in ogni progetto in "Gestione del progetto > Crawler" nelle caselle "Impostazioni di scansione" e "Velocità di scansione".
robots.txt
Prima di accedere a un sito web per la prima volta, il nostro Crawler richiederà un file con il nome “robots.txt” nella directory principale, oltre che su ogni hostname, del dominio. Se il crawler trova questo file, lo analizza e osserva da vicino le regole e le restrizioni presenti nel file. Saranno accettate regole che contano solo per "sistrix" così come regole generali con l'identificatore "*". Se utilizzi un file robots.txt, ti chiediamo di controllarne il contenuto per assicurarti che il crawler SISTRIX non sia stato limitato accidentalmente.
Se fai riferimento a una mappa del sito nel file robots.txt, il nostro crawler vi accederà come base di scansione.
Biscotti
Il crawler SISTRIX non salverà i cookie durante il controllo di una pagina. Assicurati che il nostro crawler possa accedere a tutte le parti di una pagina senza dover accettare i cookie. Troverai l'IP del nostro crawler all'interno del “Project-Management” sotto “Crawler-Settings”.
JavaScript
Il nostro crawler non utilizza JavaScript. Assicurati che tutte le pagine siano accessibili come pagine HTML statiche in modo che il nostro crawler possa analizzarle.
Restrizioni lato server
Il crawler SISTRIX può essere limitato sul lato server. In questo caso, il nostro crawler riceverà un messaggio di errore con il codice di stato HTTP 403 (limitato) al primo accesso a una pagina. Successivamente, non sarà in grado di accedere a nessuna pagina su questo server. Tale restrizione lato server può essere applicata a diversi livelli di sistema. Un buon punto di partenza sarebbe controllare il file “.htaccess” del server web Apache. Se non vengono trovati indizi qui, dovresti contattare il provider o l'host. Purtroppo, non siamo in grado di disattivare queste restrizioni da soli.
Esempi di restrizioni comuni
restrizioni su robots.txt
Se robots.txt limita il nostro crawler di Optimizer, riceverai un errore "robots.txt blocca la scansione". Controlla se ci sono restrizioni generali (User-Agent: *) o specifiche (User-Agent: Sistrix) nel tuo robots.txt. Se hai modificato il tuo user-agent nelle impostazioni del crawler del tuo progetto, controlla anche quelli.

È stato sottoposto a scansione solo un numero ridotto o nessuna pagina
Ci sono diversi motivi per cui il nostro crawler può eseguire la scansione solo di un piccolo numero o addirittura di nessuna pagina. Nel progetto Optimizer, vai su "Analizza > Modalità Esperto". Lì troverai un elenco completo di tutti i documenti HTML sottoposti a scansione sul dominio. Puoi trovare il codice di stato scorrendo leggermente a destra nella tabella. Questo dovrebbe dirti perché non tutte le pagine associate a questo dominio sono state scansionate.
- 200 : se il codice di stato è 200 ma non è stata eseguita la scansione di altre pagine, il motivo è spesso uno dei seguenti:
- Collegamenti interni mancanti : il nostro crawler segue tutti i collegamenti interni che non sono bloccati per il crawler. Verifica che siano presenti collegamenti interni nella pagina iniziale e se le pagine di destinazione potrebbero essere bloccate per il nostro crawler dal file robots.txt o dalle impostazioni del crawler.
- Impostazioni Geo-IP : Per presentare il sito web nella lingua corrispondente di ogni utente, l'IP viene verificato per il paese di origine. Tutti i nostri crawler hanno sede in Germania, il che rende necessario inserire nella whitelist il nostro IP crawler se si desidera che acceda a tutti i contenuti linguistici disponibili dietro una barriera Geo-IP.
- 301 / 302 : Se viene visualizzato il codice di stato 301 o 302, verificare se il collegamento porta a un dominio diverso, ad esempio sistrix.at, che porta a sistrix.de tramite un reindirizzamento 301. Il crawler di Optimizer rimane sempre nel dominio (o nell'host o nella directory) inserito nelle impostazioni del progetto. Se creo un progetto per sistrix.at, il nostro crawler riconoscerebbe il reindirizzamento 301 e lo mostrerebbe in modalità esperto, ma non seguirebbe il reindirizzamento a sistrix.de, poiché si tratta di un dominio diverso.
- 403 : Se il codice di stato 403 viene consegnato istantaneamente, o se dopo alcune pagine scansionabili (Codice di stato 200) vengono visualizzati solo 403 codici, dovresti verificare perché il server impedisce al nostro crawler di richiedere le pagine. Fare riferimento alla voce "Restrizioni lato server".
- 5xx : Se nel campo del codice di stato viene visualizzato un codice di stato 500 o 5xx, significa che il server non è stato in grado di soddisfare la nostra richiesta a causa di un errore del server. In questo caso, dovresti attendere qualche minuto e quindi utilizzare il pulsante "Riavvia crawler" nel menu "Gestione progetto". Se il codice di stato 5xx continua a essere visualizzato, controlla perché il server è sovraccarico e non è in grado di consegnare le pagine.
Perché Google trova altri/più contenuti rispetto a SISTRIX?
Il nostro crawler inizia sempre con la pagina iniziale del progetto, anche se è possibile aggiungere più pagine iniziali nelle impostazioni del crawler. Da questo momento in poi, seguiremo tutti i link interni che non sono bloccati. In queste pagine collegate seguiremo tutti i link interni finché non troveremo tutti quelli che non abbiamo ancora richiesto.
Può succedere che, ad esempio, le pagine di destinazione AdWords non collegate internamente non vengano visualizzate nei risultati. Questo di solito viene fatto in modo che non influenzino il monitoraggio di AdWords. Ciò significa che tali pagine sono invisibili al nostro crawler. Google, ovviamente, è a conoscenza di queste pagine.
Se inserisci una mappa del sito del nostro progetto con Google, può essere utile collegarsi ad essa all'interno del robots.txt. In questo modo, il nostro crawler può riconoscerlo e utilizzarlo come base di scansione.
Un altro motivo per cui potrebbe esserci una differenza di valori tra le pagine indicizzate della ricerca di Google e il numero di pagine scansionate nell'ottimizzatore potrebbe essere il contenuto duplicato nell'indice di ricerca di Google.