أخطاء الزحف في المحسّن

نشرت: 2022-04-17

قد تكون هناك أوقات يتعذر فيها على برنامج تتبع الارتباطات SISTRIX التقاط كل محتوى الصفحة بالكامل. هنا ، نلقي نظرة على الأسباب الأكثر شيوعًا بالإضافة إلى الأسباب ، ونعرض لك الحلول لهذه المشكلات.

الزاحف SISTRIX

يتم تنفيذ جميع عمليات الوصول المتعلقة بـ SISTRIX Toolbox بواسطة برنامج الزاحف SISTRIX. يمكن التعرف على هذا الزاحف من خلال سمتين مختلفتين: من ناحية ، هو وكيل المستخدم ، والذي يتم إرساله في كل مرة يتم فيها الوصول إلى الصفحة. وكيل المستخدم افتراضيًا هو:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

من ناحية أخرى ، تشير جميع عناوين IP الخاصة ببرنامج تتبع الارتباطات SISTRIX إلى اسم مضيف المجال "sistrix.net". الزاحف الخاص بنا على IP 136.243.92.8 ، على سبيل المثال ، سيعيد إدخال DNS العكسي 136-243-92-8.crawler.sistrix.net .

يراقب برنامج SISTRIX Crawler باستمرار عن كثب سرعة تحميل الصفحات التي تمت زيارتها ، وسوف يقوم بضبط السرعة التي يتم بها طلب الصفحات الجديدة ، إلى هذا المعدل. بهذه الطريقة ، يمكننا التأكد من أننا لن نفرط في تحميل خادم الويب. يتوفر مزيد من المعلومات على crawler.sistrix.net.

في Optimizer ، لديك أيضًا القدرة على التحكم في وكيل المستخدم وكثافة الزحف لـ Optimizer Crawler. ستجد هذه الإعدادات في كل مشروع ضمن "إدارة المشروع> الزاحف" في مربعي "إعدادات الزحف" و "سرعة الزحف".

ملف robots.txt

قبل الوصول لأول مرة إلى موقع ويب ، سيطلب برنامج الزاحف لدينا ملفًا باسم "robots.txt" في الدليل الجذر ، وكذلك في كل اسم مضيف للنطاق. إذا عثر الزاحف على هذا الملف ، فسيحلله ويراقب عن كثب القواعد والقيود الموجودة في الملف. سيتم قبول القواعد التي يتم احتسابها فقط لـ "sistrix" بالإضافة إلى القواعد العامة مع المعرف "*". إذا كنت تستخدم ملف robots.txt ، فنحن نطلب منك التحقق من المحتويات للتأكد من أن زاحف SISTRIX لم يتم تقييده عن طريق الخطأ.

إذا أشرت إلى ملف Sitemap في ملف robots.txt ، فسيقوم الزاحف الخاص بنا بالوصول إليه كقاعدة زحف.

بسكويت

لن يقوم برنامج تتبع الارتباطات SISTRIX بحفظ ملفات تعريف الارتباط أثناء فحص الصفحة. يرجى التأكد من أن الزاحف الخاص بنا يمكنه الوصول إلى جميع أجزاء الصفحة دون الحاجة إلى قبول ملفات تعريف الارتباط. ستجد عنوان IP الخاص بالزاحف الخاص بنا داخل "إدارة المشروع" ضمن "إعدادات الزاحف".

جافا سكريبت

الزاحف لدينا لا يستخدم جافا سكريبت. يُرجى التأكد من إمكانية الوصول إلى جميع الصفحات كصفحات HTML ثابتة حتى يتمكن برنامج الزاحف لدينا من تحليلها.

قيود جانب الخادم

يمكن تقييد برنامج تتبع الارتباطات SISTRIX من جانب الخادم. في هذه الحالة ، سيتلقى الزاحف رسالة خطأ تحتوي على رمز حالة HTTP 403 (مقيد) عند الوصول إلى الصفحة لأول مرة. بعد ذلك ، لن يتمكن من الوصول إلى أي صفحات على هذا الخادم. قد يتم وضع مثل هذا التقييد من جانب الخادم على مستويات مختلفة من النظام. ستكون نقطة البداية الجيدة هي فحص ملف ".htaccess" لخادم الويب Apache. إذا لم يتم العثور على أدلة هنا ، يجب عليك الاتصال بالمزود أو المضيف. للأسف ، لا يمكننا إلغاء تنشيط هذه القيود بأنفسنا.

أمثلة على القيود الشائعة

قيود ملف robots.txt

إذا قام ملف robots.txt بتقييد برنامج تتبع الارتباطات الخاص بالمُحسِّن ، فستتلقى خطأ "يحظر ملف robots.txt الزحف". يرجى التحقق مما إذا كانت هناك قيود عامة (User-Agent: *) أو معينة (User-Agent: Sistrix) في ملف robots.txt الخاص بك. إذا قمت بتغيير وكيل المستخدم الخاص بك في إعدادات الزاحف لمشروعك ، فيرجى التحقق من ذلك أيضًا.

تم الزحف إلى عدد صغير فقط أو لم يتم الزحف إلى أي صفحات

هناك عدة أسباب وراء تمكن الزاحف لدينا من الزحف إلى عدد صغير فقط أو حتى عدم الزحف إلى أي صفحات على الإطلاق. في مشروع Optimizer ، انتقل إلى "Analyze> Expert Mode". ستجد هناك قائمة شاملة بجميع مستندات HTML التي تم الزحف إليها على النطاق. يمكنك العثور على رمز الحالة بالتمرير قليلاً إلى اليمين في الجدول. يجب أن يخبرك هذا عن سبب عدم الزحف إلى جميع الصفحات المرتبطة بهذا المجال.

  • 200 : إذا كان رمز الحالة هو 200 ولكن لم يتم الزحف إلى أي صفحات أخرى ، فغالبًا ما يكون السبب أحد الأسباب التالية:
    • الروابط الداخلية المفقودة : يتتبع الزاحف الخاص بنا جميع الروابط الداخلية التي لم يتم حظرها للزاحف. يرجى التحقق من وجود روابط داخلية في صفحة البداية وما إذا كانت الصفحات المستهدفة قد تم حظرها للزاحف لدينا إما عن طريق ملف robots.txt أو إعدادات الزاحف.
    • إعدادات Geo-IP : لتقديم موقع الويب باللغة المقابلة لكل مستخدم ، يتم التحقق من عنوان IP لبلد المنشأ. تقع جميع برامج الزحف لدينا في ألمانيا ، مما يجعل من الضروري إدراج عنوان IP الخاص بنا في القائمة البيضاء إذا كنت تريد الوصول إلى جميع محتويات اللغة المتوفرة خلف Geo-IP-Barrier.
  • 301/302 : إذا ظهر رمز الحالة 301 أو 302 ، فالرجاء التحقق مما إذا كان الرابط يؤدي إلى مجال مختلف - على سبيل المثال sistrix.at ، مما يؤدي إلى sistrix.de عبر إعادة التوجيه 301. يظل برنامج تتبع الارتباطات لـ Optimizer دائمًا في النطاق (أو المضيف أو الدليل) الذي تم إدخاله في إعدادات المشروع. إذا قمت بإنشاء مشروع لـ sistrix.at ، فسيتعرف الزاحف الخاص بنا على إعادة التوجيه 301 ويعرضه في وضع الخبير ، لكنه لن يتبع إعادة التوجيه إلى sistrix.de ، لأن هذا مجال مختلف.
  • 403 : إذا تم تسليم رمز الحالة 403 على الفور ، أو إذا تم عرض 403 رمزًا فقط بعد بضع صفحات قابلة للزحف (رمز الحالة 200) ، فيجب عليك التحقق من سبب تقييد الخادم للزاحف لدينا من طلب الصفحات. يرجى الرجوع إلى إدخال "قيود جانب الخادم".
  • 5xx : إذا تم عرض رمز الحالة 500 أو 5xx في حقل رمز الحالة ، فهذا يعني أن الخادم لم يكن قادرًا على الاهتمام بطلبنا بسبب خطأ في الخادم. في هذه الحالة ، يجب عليك الانتظار بضع دقائق ثم استخدام الزر "إعادة تشغيل الزاحف" في قائمة "إدارة المشروع". إذا استمر رمز الحالة 5xx في الظهور ، فتحقق من سبب زيادة التحميل على الخادم وعدم قدرته على تسليم الصفحات.

لماذا يعثر Google على محتوى آخر / أكثر من SISTRIX؟

يبدأ الزاحف الخاص بنا دائمًا بصفحة بداية المشروع ، على الرغم من إمكانية إضافة المزيد من صفحات البداية في إعدادات الزاحف. من الآن فصاعدًا ، سنتابع جميع الروابط الداخلية التي لم يتم حظرها. في هذه الصفحات المرتبطة ، سنتابع جميع الروابط الداخلية حتى نجد كل الروابط التي لم نطلبها بعد.

ما يمكن أن يحدث هو أنه ، على سبيل المثال ، لا تظهر صفحات AdWords المقصودة غير المرتبطة داخليًا في النتائج. يتم ذلك عادةً حتى لا تؤثر على تتبع AdWords. هذا يعني أن هذه الصفحات غير مرئية للزاحف الخاص بنا. جوجل ، بالطبع ، على علم بهذه الصفحات.

إذا أدخلت خريطة موقع لمشروعنا مع Google ، فيمكن أن تدفع ثمارًا للربط بها داخل ملف robots.txt. بهذه الطريقة ، يمكن لبرنامج الزاحف الخاص بنا التعرف عليه واستخدامه كقاعدة زحف.

قد يكون هناك سبب آخر لوجود اختلاف في القيم بين الصفحات المفهرسة في بحث Google وعدد الصفحات التي تم الزحف إليها في المحسِّن ، وهو محتوى مكرر في فهرس بحث Google.