Ada kalanya Perayap SISTRIX tidak dapat sepenuhnya menangkap semua konten di halaman. Di sini, kami melihat alasan paling umum serta alasannya, dan menunjukkan solusi untuk masalah ini.
Perayap SISTRIX
Semua akses yang terkait dengan SISTRIX Toolbox dilakukan oleh crawler SISTRIX. Crawler ini dapat diidentifikasi dengan dua ciri yang berbeda: di satu sisi itu adalah agen pengguna, yang dikirimkan setiap kali halaman diakses. Secara default, agen pengguna adalah:
Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
Di sisi lain, semua alamat IP dari Crawler SISTRIX menunjuk ke nama host dari domain “sistrix.net”. Crawler kami pada IP 136.243.92.8 , misalnya, akan mengembalikan Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net .
Perayap SISTRIX terus-menerus mengawasi kecepatan pemuatan halaman yang dikunjungi, dan akan menyesuaikan kecepatan permintaan halaman baru, dengan kecepatan ini. Dengan cara ini, kami dapat memastikan bahwa kami tidak akan membebani server web. Informasi lebih lanjut tersedia di crawler.sistrix.net.
Di Pengoptimal, Anda juga memiliki kemampuan untuk mengontrol agen pengguna dan intensitas perayapan dari Perayap Pengoptimal. Anda akan menemukan pengaturan ini di setiap proyek di bawah "Manajemen Proyek> Perayap" di kotak "Pengaturan Perayapan" dan "Kecepatan Perayapan".
robots.txt
Sebelum mengakses situs web terlebih dahulu, Crawler kami akan meminta file dengan nama “robots.txt” di direktori root, serta di setiap nama host, dari domain. Jika Crawler menemukan file ini, Crawler akan menganalisisnya dan mengamati dengan cermat aturan dan batasan yang ditemukan dalam file tersebut. Aturan yang hanya dihitung untuk sistrix“ akan diterima serta aturan umum dengan pengenal *“. Jika Anda menggunakan file robots.txt, kami meminta Anda memeriksa konten untuk memastikan bahwa perayap SISTRIX tidak dibatasi secara tidak sengaja.
Jika Anda merujuk ke peta situs di robots.txt, perayap kami akan mengaksesnya sebagai basis perayapan.
Kue
Perayap SISTRIX tidak akan menyimpan cookie saat memeriksa halaman. Harap pastikan bahwa perayap kami dapat mengakses semua bagian halaman tanpa harus menerima cookie. Anda akan menemukan IP perayap kami di dalam "Manajemen Proyek" di bawah "Pengaturan Perayap".
JavaScript
Perayap kami tidak menggunakan JavaScript. Harap pastikan bahwa semua halaman dapat diakses sebagai halaman HTML statis sehingga perayap kami dapat menganalisisnya.
Pembatasan sisi server
Perayap SISTRIX dapat dibatasi di sisi server. Dalam hal ini, perayap kami akan mendapatkan pesan kesalahan dengan kode status HTTP 403 (dibatasi) saat pertama kali mengakses halaman. Setelah itu, itu tidak akan dapat mengakses halaman apa pun di server ini. Pembatasan sisi server semacam itu dapat diterapkan pada tingkat sistem yang berbeda. Titik awal yang baik adalah memeriksa file ".htaccess" dari server web Apache. Jika tidak ada petunjuk yang ditemukan di sini, Anda harus menghubungi penyedia atau tuan rumah. Sayangnya, kami tidak dapat menonaktifkan pembatasan ini sendiri.
Contoh pembatasan umum
pembatasan robots.txt
Jika robots.txt membatasi perayap Pengoptimal kami, Anda akan mendapatkan kesalahan "perayapan blok robots.txt". Harap periksa apakah ada batasan umum (User-Agent: *) atau khusus (User-Agent: Sistrix) di robots.txt Anda. Jika Anda mengubah agen pengguna di pengaturan perayap proyek Anda, periksa juga.

Hanya sejumlah kecil atau tidak ada halaman yang dirayapi
Ada beberapa alasan mengapa perayap kami hanya dapat merayapi sejumlah kecil atau bahkan tidak ada halaman sama sekali. Di proyek Pengoptimal, buka "Analisis > Mode Pakar". Di sana Anda akan menemukan daftar lengkap semua dokumen HTML yang dirayapi di domain. Anda dapat menemukan kode status dengan menggulir sedikit ke kanan pada tabel. Ini akan memberi tahu Anda mengapa tidak semua halaman yang terkait dengan domain ini telah dirayapi.
- 200 : Jika kode statusnya 200 tetapi tidak ada halaman lain yang dirayapi, alasannya biasanya salah satu dari berikut ini:
- Tautan internal tidak ada : Perayap kami mengikuti semua tautan internal yang tidak diblokir untuk perayap. Harap periksa apakah ada tautan internal di halaman awal dan apakah halaman target mungkin diblokir untuk perayap kami oleh robots.txt atau setelan perayap.
- Pengaturan Geo-IP : Untuk menampilkan situs web dalam bahasa yang sesuai untuk setiap pengguna, IP diperiksa untuk negara asal. Semua perayap kami berbasis di Jerman yang mengharuskan IP Perayap kami masuk daftar putih jika Anda ingin mengakses semua konten bahasa yang tersedia di balik Geo-IP-Barrier.
- 301 / 302 : Jika kode status 301 atau 302 muncul, periksa apakah tautan mengarah ke domain lain – misalnya sistrix.at, yang mengarah ke sistrix.de melalui pengalihan 301. Perayap Pengoptimal selalu tetap berada di domain (atau host atau direktori) yang dimasukkan ke dalam pengaturan proyek. Jika saya membuat proyek untuk sistrix.at, perayap kami akan mengenali pengalihan 301 dan menampilkannya dalam mode ahli, tetapi tidak akan mengikuti pengalihan ke sistrix.de, karena ini adalah domain yang berbeda.
- 403 : Jika kode status 403 dikirimkan secara instan, atau jika setelah beberapa halaman yang dapat dirayapi (Kode Status 200) hanya 403 kode yang ditampilkan, Anda harus memeriksa mengapa server membatasi perayap kami untuk meminta halaman tersebut. Silakan merujuk ke entri untuk "Pembatasan sisi server".
- 5xx : Jika kode status 500 atau 5xx ditampilkan di bidang kode status, ini berarti server tidak dapat menangani permintaan kami karena kesalahan server. Dalam hal ini, Anda harus menunggu beberapa menit dan kemudian menggunakan tombol "Restart Crawler" di menu "Project-Management". Jika kode status 5xx terus muncul, periksa mengapa server kelebihan beban dan tidak dapat mengirimkan halaman.
Mengapa Google menemukan konten lain/lebih dari SISTRIX?
Perayap kami selalu dimulai dengan halaman awal proyek, meskipun lebih banyak halaman awal dapat ditambahkan dalam pengaturan perayap. Mulai saat ini, kami akan mengikuti semua tautan internal yang tidak diblokir. Pada halaman-halaman tertaut ini, kami akan mengikuti semua tautan internal hingga kami menemukan semua tautan yang belum kami minta.
Apa yang dapat terjadi adalah, misalnya, Laman Landas AdWords yang tidak tertaut secara internal tidak muncul di hasil. Ini biasanya dilakukan agar mereka tidak mempengaruhi Pelacakan AdWords. Ini berarti bahwa laman tersebut tidak terlihat oleh perayap kami. Google, tentu saja, mengetahui halaman-halaman ini.
Jika Anda memasukkan peta situs proyek kami dengan Google, Anda dapat membayar untuk menautkannya ke dalam robots.txt. Dengan begitu, perayap kami dapat mengenali dan menggunakannya sebagai basis perayapan.
Alasan lain mengapa mungkin ada perbedaan nilai antara halaman yang diindeks dari pencarian Google dan jumlah halaman yang dirayapi di pengoptimal Anda mungkin merupakan duplikat konten dalam indeks pencarian Google.