Erros de rastreamento no otimizador

Publicados: 2022-04-17

Pode haver momentos em que o SISTRIX Crawler não consiga capturar completamente todo o conteúdo de uma página. Aqui, analisamos os motivos mais comuns, bem como os motivos, e mostramos soluções para esses problemas.

O rastreador SISTRIX

Todo o acesso relacionado ao SISTRIX Toolbox é realizado pelo crawler SISTRIX. Este Crawler pode ser identificado por dois traços distintos: por um lado é o user-agent, que é submetido sempre que uma página é acessada. Por padrão, o agente do usuário é:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

Por outro lado, todos os endereços IP do SISTRIX Crawler apontam para o hostname do domínio “sistrix.net”. Nosso Crawler no IP 136.243.92.8 , por exemplo, retornaria o Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net .

O Crawler SISTRIX acompanha continuamente a velocidade de carregamento das páginas visitadas, e ajustará a velocidade com que novas páginas são solicitadas, a esta taxa. Dessa forma, podemos garantir que não sobrecarregaremos o servidor web. Mais informações estão disponíveis em crawler.sistrix.net.

No Optimizer, você também tem a capacidade de controlar o agente do usuário e a intensidade de rastreamento do Optimizer Crawler. Você encontrará essas configurações em cada projeto em “Gerenciamento de projetos > Rastreador” nas caixas “Configurações de rastreamento” e “Velocidade de rastreamento”.

robots.txt

Antes de acessar um site pela primeira vez, nosso Crawler solicitará um arquivo com o nome “robots.txt” no diretório raiz, bem como em cada hostname, do domínio. Se o Crawler encontrar este arquivo, ele o analisa e observa atentamente as regras e restrições encontradas no arquivo. Serão aceitas regras que apenas contam para „sistrix“, assim como regras gerais com o identificador „*“. Se você usar um arquivo robots.txt, pedimos que verifique o conteúdo para se certificar de que o rastreador SISTRIX não foi restringido acidentalmente.

Se você fizer referência a um sitemap no robots.txt, nosso rastreador o acessará como base de rastreamento.

Biscoitos

O SISTRIX Crawler não salvará cookies durante a verificação de uma página. Certifique-se de que nosso rastreador possa acessar todas as partes de uma página sem ter que aceitar cookies. Você encontrará o IP do nosso rastreador dentro do “Project-Management” em “Crawler-Settings”.

JavaScript

Nosso rastreador não usa JavaScript. Certifique-se de que todas as páginas sejam acessíveis como páginas HTML estáticas para que nosso rastreador possa analisá-las.

Restrições do lado do servidor

O SISTRIX Crawler pode ser restrito no lado do servidor. Nesse caso, nosso rastreador receberá uma mensagem de erro com o código de status HTTP 403 (restrito) ao acessar uma página pela primeira vez. Depois disso, ele não poderá acessar nenhuma página neste servidor. Essa restrição do lado do servidor pode ser implementada em diferentes níveis do sistema. Um bom ponto de partida seria verificar o arquivo “.htaccess” do servidor web Apache. Se nenhuma pista for encontrada aqui, você deve entrar em contato com o provedor ou host. Infelizmente, não podemos desativar essas restrições por conta própria.

Exemplos de restrições comuns

restrições do robots.txt

Se o robots.txt restringir nosso rastreador do Optimizer, você receberá um erro "robots.txt bloqueia o rastreamento". Verifique se há restrições gerais (User-Agent: *) ou específicas (User-Agent: Sistrix) em seu robots.txt. Se você alterou seu agente de usuário nas configurações do rastreador de seu projeto, verifique-o também.

Apenas um pequeno número ou nenhuma página foi rastreada

Há vários motivos pelos quais nosso rastreador pode rastrear apenas um pequeno número ou até mesmo nenhuma página. No projeto Optimizer, vá para “Analyse > Expert Mode”. Lá você encontrará uma extensa lista de todos os documentos HTML rastreados no domínio. Você pode encontrar o código de status rolando um pouco para a direita na tabela. Isso deve informar por que nem todas as páginas associadas a este domínio foram rastreadas.

200 : se o código de status for 200, mas nenhuma outra página tiver sido rastreada, o motivo geralmente é um dos seguintes:
- Links internos ausentes : nosso rastreador segue todos os links internos que não estão bloqueados para o rastreador. Verifique se há links internos na página inicial e se as páginas de destino podem estar bloqueadas para nosso rastreador pelo robots.txt ou pelas configurações do rastreador.
- Configurações Geo-IP : Para apresentar o site no idioma correspondente de cada usuário, o IP é verificado para o país de origem. Todos os nossos crawlers são baseados na Alemanha, o que torna necessário colocar nosso Crawler-IP na lista de permissões se você quiser que ele acesse todos os conteúdos de idioma disponíveis por trás de uma Geo-IP-Barrier.
301 / 302 : Se o código de status 301 ou 302 aparecer, verifique se o link leva a um domínio diferente – por exemplo, sistrix.at, que leva a sistrix.de por meio de um redirecionamento 301. O rastreador do Optimizer sempre permanece no domínio (ou no host ou diretório) inserido nas configurações do projeto. Se eu criar um projeto para sistrix.at, nosso rastreador reconheceria o redirecionamento 301 e o mostraria no modo especialista, mas não seguiria o redirecionamento para sistrix.de, pois este é um domínio diferente.
403 : Se o código de status 403 for entregue instantaneamente, ou se após algumas páginas rastreáveis (código de status 200) apenas códigos 403 forem exibidos, você deve verificar por que o servidor restringe nosso rastreador de solicitar as páginas. Consulte a entrada para "Restrições do lado do servidor".
5xx : Se um código de status 500 ou 5xx for mostrado no campo de código de status, isso significa que o servidor não conseguiu atender a nossa solicitação devido a um erro do servidor. Neste caso, você deve esperar alguns minutos e então usar o botão “Reiniciar Crawler” no menu “Gerenciamento de Projetos”. Se o código de status 5xx continuar aparecendo, verifique por que o servidor está sobrecarregado e não consegue entregar as páginas.

Por que o Google encontra outro/mais conteúdo além do SISTRIX?

Nosso rastreador sempre começa com a página inicial do projeto, embora mais páginas iniciais possam ser adicionadas nas configurações do rastreador. A partir deste ponto, seguiremos todos os links internos que não estiverem bloqueados. Nestas páginas vinculadas, seguiremos todos os links internos até encontrarmos todos aqueles que ainda não solicitamos.

O que pode acontecer é que, por exemplo, as páginas de destino do AdWords que não estão vinculadas internamente não apareçam nos resultados. Isso geralmente é feito para que eles não influenciem o acompanhamento do AdWords. Isso significa que essas páginas são invisíveis para nosso rastreador. O Google, é claro, está ciente dessas páginas.

Se você inserir um mapa do site do nosso projeto com o Google, pode valer a pena vincular a ele dentro do robots.txt. Dessa forma, nosso rastreador pode reconhecê-lo e usá-lo como base de rastreamento.

Outro motivo pelo qual pode haver uma diferença de valores entre as páginas indexadas da pesquisa do Google e o número de páginas rastreadas em seu otimizador pode ser o conteúdo duplicado no índice de pesquisa do Google.