Optimize Edici'deki Tarama Hataları

Yayınlanan: 2022-04-17

SISTRIX Crawler'ın bir sayfadaki tüm içeriği tam olarak yakalayamadığı zamanlar olabilir. Burada, en yaygın nedenlere ve nedenlerine bir göz atıyoruz ve size bu sorunlara çözümler gösteriyoruz.

SISTRIX tarayıcısı

SISTRIX Toolbox ile ilgili tüm erişim, SISTRIX tarayıcısı tarafından gerçekleştirilir. Bu Tarayıcı, iki farklı özellikle tanımlanabilir: bir yandan, bir sayfaya her erişildiğinde gönderilen kullanıcı aracısıdır. Varsayılan olarak, kullanıcı aracısı:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

Öte yandan, SISTRIX Crawler'ın tüm IP adresleri, “sistrix.net” etki alanının ana bilgisayar adını gösterir. Örneğin, IP 136.243.92.8 üzerindeki Tarayıcımız, Ters-DNS-Girişi 136-243-92-8.crawler.sistrix.net döndürür .

SISTRIX Crawler, ziyaret edilen sayfaların yüklenme hızını sürekli olarak yakından takip eder ve yeni sayfaların istenme hızını bu orana ayarlar. Bu şekilde, web sunucusuna aşırı yüklenmeyeceğimizden emin olabiliriz. Daha fazla bilgi, crawler.sistrix.net adresinde mevcuttur.

Optimizer'da ayrıca, Optimizer Crawler'ın kullanıcı aracısını ve tarama yoğunluğunu kontrol etme olanağına da sahipsiniz. Bu ayarları her projede “Proje-Yönetim > Paletli” altında “Tarama Ayarları” ve “Tarama Hızı” kutularında bulacaksınız.

robots.txt

Bir web sitesine ilk kez erişmeden önce, Tarayıcımız, etki alanının her bir ana bilgisayar adının yanı sıra kök dizininde "robots.txt" adında bir dosya isteyecektir. Crawler bu dosyayı bulursa, onu analiz eder ve dosyada bulunan kuralları ve kısıtlamaları yakından takip eder. Yalnızca "sistrix" için geçerli olan kurallar ve "*" tanımlayıcılı genel kurallar kabul edilecektir. Bir robots.txt dosyası kullanıyorsanız, SISTRIX tarayıcısının yanlışlıkla kısıtlanmadığından emin olmak için lütfen içeriği kontrol etmenizi rica ediyoruz.

robots.txt dosyasında bir site haritasına başvurursanız, tarayıcımız ona bir tarama tabanı olarak erişecektir.

Kurabiye

SISTRIX Tarayıcı, bir sayfayı kontrol ederken çerezleri kaydetmeyecektir. Lütfen tarayıcımızın çerezleri kabul etmek zorunda kalmadan bir sayfanın tüm bölümlerine erişebildiğinden emin olun. Tarayıcımızın IP'sini "Proje Yönetimi" içinde "Tarayıcı Ayarları" altında bulabilirsiniz.

JavaScript

Tarayıcımız JavaScript kullanmaz. Tarayıcımızın bunları analiz edebilmesi için lütfen tüm sayfalara statik HTML sayfaları olarak erişilebildiğinden emin olun.

Sunucu tarafı kısıtlamaları

SISTRIX Paletli, sunucu tarafında kısıtlanabilir. Bu durumda, tarayıcımız bir sayfaya ilk erişirken HTTP durum kodu 403 (kısıtlı) ile bir hata mesajı alır. Bunu takiben, bu sunucudaki hiçbir sayfaya erişemez. Bu tür bir sunucu tarafı kısıtlaması, farklı sistem seviyelerinde uygulanabilir. Apache-web sunucusunun “.htaccess” dosyasını kontrol etmek iyi bir başlangıç ​​noktası olacaktır. Burada hiçbir ipucu bulunmazsa, sağlayıcı veya sunucuyla iletişime geçmelisiniz. Ne yazık ki, bu kısıtlamaları kendimiz devre dışı bırakamıyoruz.

Yaygın kısıtlama örnekleri

robots.txt kısıtlamaları

Robots.txt, Optimizer tarayıcımızı kısıtlarsa, "robots.txt taramayı engeller" hatası alırsınız. Lütfen robots.txt dosyanızda genel (User-Agent: *) veya özel (User-Agent: Sistrix) kısıtlamalar olup olmadığını kontrol edin. Projenizin tarayıcı ayarlarında kullanıcı aracınızı değiştirdiyseniz, lütfen bunları da kontrol edin.

Yalnızca az sayıda sayfa tarandı veya hiç sayfa taranmadı

Tarayıcımızın yalnızca az sayıda sayfayı tarayabilmesinin veya hiç sayfa taramamasının birden çok nedeni vardır. Optimize Edici projesinde, “Analiz > Uzman Modu”na gidin. Orada, etki alanındaki tüm taranan HTML belgelerinin kapsamlı bir listesini bulacaksınız. Durum kodunu tabloda biraz sağa kaydırarak bulabilirsiniz. Bu, bu alanla ilişkili tüm sayfaların neden taranmadığını size anlatmalıdır.

  • 200 : Durum kodu 200 ise ancak başka sayfa taranmamışsa, bunun nedeni genellikle aşağıdakilerden biridir:
    • Eksik dahili bağlantılar : Tarayıcımız, tarayıcı için engellenmeyen tüm dahili bağlantıları takip eder. Lütfen başlangıç ​​sayfasında dahili bağlantılar olup olmadığını ve hedef sayfaların robots.txt veya tarayıcı ayarları tarafından tarayıcımız için engellenip engellenmediğini kontrol edin.
    • Geo-IP ayarları : Web sitesini her kullanıcının ilgili dilinde sunmak için, IP menşe ülke için kontrol edilir. Tüm tarayıcılarımızın merkezi Almanya'dadır ve bu, bir Geo-IP-Bariyerinin arkasında bulunan tüm dil içeriğine erişmesini istiyorsanız, Tarayıcı IP'mizi beyaz listeye almayı gerekli kılar.
  • 301 / 302 : 301 veya 302 durum kodu görünürse, lütfen bağlantının farklı bir alana yönlendirip yönlendirmediğini kontrol edin – örneğin sistrix.at, bu da 301 yönlendirmesi yoluyla sistrix.de'ye yol açar. Optimizer tarayıcısı her zaman proje ayarlarına girilen etki alanında (veya ana bilgisayar veya dizinde) kalır. sistrix.at için bir proje oluşturursam, tarayıcımız 301 yönlendirmesini tanır ve bunu uzman modunda gösterir, ancak bu farklı bir etki alanı olduğu için sistrix.de'ye yönlendirmeyi izlemez.
  • 403 : Durum kodu 403 anında teslim ediliyorsa veya birkaç taranabilir sayfadan sonra (Durum Kodu 200) yalnızca 403 kodları gösteriliyorsa, sunucunun tarayıcımızın sayfaları istemesini neden kısıtladığını kontrol etmelisiniz. Lütfen “Sunucu tarafı kısıtlamaları” girişine bakın.
  • 5xx : Durum kodu alanında 500 veya 5xx durum kodu gösteriliyorsa, bu, sunucunun bir sunucu hatası nedeniyle isteğimizi yerine getiremediği anlamına gelir. Bu durumda birkaç dakika beklemeli ve ardından “Proje-Yönetim” menüsündeki “Tarayıcıyı Yeniden Başlat” butonunu kullanmalısınız. 5xx durum kodu görünmeye devam ederse, sunucunun neden aşırı yüklendiğini ve sayfaları teslim edemediğini kontrol edin.

Google neden SISTRIX'ten başka/daha fazla içerik buluyor?

Tarayıcı ayarlarına daha fazla başlangıç ​​sayfası eklenebilir olsa da, tarayıcımız her zaman projenin başlangıç ​​sayfasıyla başlar. Bu andan itibaren, engellenmeyen tüm dahili bağlantıları takip edeceğiz. Bu bağlantılı sayfalarda, henüz talep etmediğimiz tüm bağlantıları bulana kadar tüm dahili bağlantıları takip edeceğiz.

Olabilir, örneğin, dahili olarak bağlı olmayan AdWords Açılış Sayfaları sonuçlarda görünmez. Bu genellikle, AdWords İzleme'yi etkilememeleri için yapılır. Bu, bu tür sayfaların tarayıcımız tarafından görülmediği anlamına gelir. Google, elbette, bu sayfaların farkındadır.

Google ile projemizin bir site haritasını girerseniz, robots.txt içinde ona bağlantı vermek için ödeme yapabilir. Bu şekilde, tarayıcımız onu bir tarama tabanı olarak tanıyabilir ve kullanabilir.

Google aramasının dizine eklenen sayfaları ile optimize edicinizdeki taranan sayfaların sayısı arasında bir değer farkı olmasının bir başka nedeni de Google'ın arama dizinindeki yinelenen içerik olabilir.