Erori de accesare cu crawlere în Optimizer

Publicat: 2022-04-17

Pot exista momente când SISTRIX Crawler nu poate capta complet tot conținutul dintr-o pagină. Aici, aruncăm o privire asupra celor mai comune motive, precum și asupra motivelor și vă arătăm soluții la aceste probleme.

Crawlerul SISTRIX

Toate accesele legate de Caseta de instrumente SISTRIX sunt efectuate de crawler-ul SISTRIX. Acest crawler poate fi identificat prin două trăsături distincte: pe de o parte este user-agent, care este trimis de fiecare dată când o pagină este accesată. În mod implicit, user-agent este:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

Pe de altă parte, toate adresele IP ale Crawler-ului SISTRIX indică numele de gazdă al domeniului „sistrix.net”. Crawler-ul nostru de pe IP 136.243.92.8 , de exemplu, ar returna intrarea-DNS-inversă 136-243-92-8.crawler.sistrix.net .

Crawler-ul SISTRIX urmărește în permanență viteza de încărcare a paginilor vizitate și va ajusta viteza cu care sunt solicitate pagini noi, la acest ritm. În acest fel, ne putem asigura că nu vom supraîncărca serverul web. Mai multe informații sunt disponibile la crawler.sistrix.net.

În Optimizer aveți, de asemenea, capacitatea de a controla user-agent și intensitatea crawler-ului Optimizer Crawler. Veți găsi aceste setări în fiecare proiect sub „Management de proiect > Crawler” în casetele „Setări de crawling” și „Viteza de crawling”.

robots.txt

Înainte de prima accesare a unui site web, crawler-ul nostru va solicita un fișier cu numele „robots.txt” în directorul rădăcină, precum și pe fiecare nume de gazdă al domeniului. Dacă Crawler-ul găsește acest fișier, îl analizează și respectă îndeaproape regulile și restricțiile găsite în fișier. Vor fi acceptate regulile care contează doar pentru „sistrix”, precum și regulile generale cu identificatorul „*”. Dacă utilizați un fișier robots.txt, vă rugăm să verificați conținutul pentru a vă asigura că crawler-ul SISTRIX nu a fost restricționat accidental.

Dacă vă referiți la un sitemap în robots.txt, crawler-ul nostru îl va accesa ca bază de accesare cu crawlere.

Cookie-uri

Crawlerul SISTRIX nu va salva cookie-uri în timp ce verifică o pagină. Vă rugăm să vă asigurați că crawler-ul nostru poate accesa toate părțile unei pagini fără a fi nevoie să accepte cookie-uri. Veți găsi IP-ul crawler-ului nostru în „Project-Management” sub „Crawler-Settings”.

JavaScript

Crawler-ul nostru nu folosește JavaScript. Asigurați-vă că toate paginile sunt accesibile ca pagini HTML statice, astfel încât crawler-ul nostru să le poată analiza.

Restricții pe partea serverului

SISTRIX Crawler poate fi restricționat pe partea serverului. În acest caz, crawler-ul nostru va primi un mesaj de eroare cu codul de stare HTTP 403 (restricționat) la prima accesare a unei pagini. După aceea, nu va putea accesa nicio pagină de pe acest server. O astfel de restricție pe partea serverului poate fi pusă în aplicare la diferite niveluri de sistem. Un bun punct de plecare ar fi verificarea fișierului „.htaccess” al serverului web Apache. Dacă nu se găsesc indicii aici, ar trebui să contactați furnizorul sau gazda. Din păcate, nu putem dezactiva aceste restricții singuri.

Exemple de restricții comune

restricții robots.txt

Dacă robots.txt restricționează crawler-ul Optimizer, veți primi o eroare „robots.txt blocks crawler”. Vă rugăm să verificați dacă există restricții generale (User-Agent: *) sau specifice (User-Agent: Sistrix) în robots.txt. Dacă v-ați schimbat user-agent în setările crawler-ului proiectului dvs., vă rugăm să verificați și acestea.

Doar un număr mic sau nicio pagină a fost accesată cu crawlere

Există mai multe motive pentru care crawler-ul nostru ar putea accesa cu crawlere doar un număr mic sau chiar nicio pagină. În proiectul Optimizer, accesați „Analiza > Modul Expert”. Acolo veți găsi o listă extinsă a tuturor documentelor HTML accesate cu crawlere de pe domeniu. Puteți găsi codul de stare derulând puțin spre dreapta în tabel. Acest lucru ar trebui să vă spună de ce nu au fost accesate cu crawlere toate paginile asociate acestui domeniu.

  • 200 : Dacă codul de stare este 200, dar nicio altă pagină nu a fost accesată cu crawlere, motivul este adesea unul dintre următoarele:
    • Lipsesc linkuri interne : crawler-ul nostru urmărește toate legăturile interne care nu sunt blocate pentru crawler. Vă rugăm să verificați dacă există legături interne pe pagina de pornire și dacă paginile țintă ar putea fi blocate pentru crawler-ul nostru fie de robots.txt, fie de setările crawler-ului.
    • Setări Geo-IP : Pentru a prezenta site-ul web în limba corespunzătoare fiecărui utilizator, IP-ul este verificat pentru țara de origine. Toate crawlerele noastre au sediul în Germania, ceea ce face necesară înscrierea în lista albă a IP-ului nostru cu crawler dacă doriți ca acesta să acceseze toate conținuturile lingvistice disponibile în spatele unei bariere Geo-IP.
  • 301 / 302 : Dacă apare codul de stare 301 sau 302, vă rugăm să verificați dacă linkul duce la un alt domeniu – de exemplu sistrix.at, care duce la sistrix.de printr-o redirecționare 301. Crawler-ul Optimizer rămâne întotdeauna pe domeniul (sau gazda sau directorul) introdus în setările proiectului. Dacă creez un proiect pentru sistrix.at, crawler-ul nostru ar recunoaște redirecționarea 301 și o va afișa în modul expert, dar nu ar urma redirecționarea către sistrix.de, deoarece acesta este un domeniu diferit.
  • 403 : Dacă codul de stare 403 este livrat instantaneu sau dacă după câteva pagini accesabile cu crawlere (Codul de stare 200) sunt afișate doar 403 coduri, ar trebui să verificați de ce serverul restricționează crawler-ul nostru să solicite paginile. Vă rugăm să consultați intrarea pentru „Restricții pe partea serverului”.
  • 5xx : Dacă în câmpul codului de stare este afișat un cod de stare 500 sau 5xx, aceasta înseamnă că serverul nu a putut să se ocupe de solicitarea noastră din cauza unei erori de server. În acest caz, ar trebui să așteptați câteva minute și apoi să utilizați butonul „Reporniți crawler” din meniul „Management de proiect”. Dacă codul de stare 5xx continuă să apară, verificați de ce serverul este supraîncărcat și nu poate livra paginile.

De ce găsește Google alt conținut/mai mult decât SISTRIX?

Crawlerul nostru începe întotdeauna cu pagina de pornire a proiectului, deși mai multe pagini de pornire pot fi adăugate în setările crawlerului. Din acest moment, vom urmări toate legăturile interne care nu sunt blocate. Pe aceste pagini legate, vom urmări toate legăturile interne până când le vom găsi pe toate pe cele pe care încă nu le-am solicitat.

Ceea ce se poate întâmpla este ca, de exemplu, paginile de destinație AdWords care nu sunt conectate intern să nu apară în rezultate. Acest lucru se face de obicei pentru ca acestea să nu influențeze urmărirea AdWords. Aceasta va însemna că astfel de pagini sunt invizibile pentru crawler-ul nostru. Google, desigur, este la curent cu aceste pagini.

Dacă introduceți un sitemap a proiectului nostru cu Google, poate plăti să faceți un link către acesta în interiorul robots.txt. În acest fel, crawler-ul nostru îl poate recunoaște și utiliza ca bază de crawler.

Un alt motiv pentru care poate exista o diferență de valori între paginile indexate ale căutării Google și numărul de pagini accesate cu crawlere în optimizatorul dvs. poate fi conținutul duplicat din indexul de căutare Google.