Ошибки сканирования в оптимизаторе

Опубликовано: 2022-04-17

Бывают случаи, когда SISTRIX Crawler не может полностью захватить все содержимое страницы. Здесь мы рассмотрим наиболее распространенные причины, а также причины и покажем вам решения этих проблем.

Искатель SISTRIX

Весь доступ, связанный с SISTRIX Toolbox, осуществляется поисковым роботом SISTRIX. Этот Crawler можно идентифицировать по двум отличительным чертам: с одной стороны, это пользовательский агент, который отправляется каждый раз при доступе к странице. По умолчанию пользовательский агент:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

С другой стороны, все IP-адреса SISTRIX Crawler указывают на имя хоста домена «sistrix.net». Например, наш Crawler на IP 136.243.92.8 вернет Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net .

SISTRIX Crawler постоянно следит за скоростью загрузки посещенных страниц и регулирует скорость, с которой запрашиваются новые страницы, в соответствии с этой скоростью. Таким образом, мы можем гарантировать, что не перегрузим веб-сервер. Более подробная информация доступна на сайте crawler.sistrix.net.

В оптимизаторе у вас также есть возможность управлять пользовательским агентом и интенсивностью обхода сканера оптимизатора. Вы найдете эти настройки в каждом проекте в разделе «Управление проектами > Краулер» в полях «Настройки сканирования» и «Скорость сканирования».

robots.txt

Перед первым доступом к веб-сайту наш сканер запросит файл с именем «robots.txt» в корневом каталоге, а также на каждом имени хоста домена. Если Краулер находит этот файл, он анализирует его и тщательно соблюдает правила и ограничения, обнаруженные в файле. Будут приняты правила, учитывающие только «sistrix», а также общие правила с идентификатором «*». Если вы используете файл robots.txt, мы просим вас проверить его содержимое, чтобы убедиться, что поисковый робот SISTRIX не был случайно ограничен.

Если вы сошлетесь на карту сайта в robots.txt, наш сканер получит к ней доступ как к базе сканирования.

Печенье

SISTRIX Crawler не будет сохранять файлы cookie при проверке страницы. Убедитесь, что наш поисковый робот может получить доступ ко всем частям страницы без необходимости принимать файлы cookie. Вы найдете IP-адрес нашего поискового робота в разделе «Управление проектами» в разделе «Настройки поискового робота».

JavaScript

Наш сканер не использует JavaScript. Убедитесь, что все страницы доступны как статические HTML-страницы, чтобы наш поисковый робот мог их проанализировать.

Ограничения на стороне сервера

SISTRIX Crawler может быть ограничен на стороне сервера. В этом случае наш сканер получит сообщение об ошибке с кодом состояния HTTP 403 (restricted) при первом доступе к странице. После этого он не сможет получить доступ к каким-либо страницам на этом сервере. Такое ограничение на стороне сервера может быть установлено на разных системных уровнях. Хорошей отправной точкой будет проверка файла «.htaccess» веб-сервера Apache. Если никаких зацепок здесь не обнаружено, следует обратиться к провайдеру или хостеру. К сожалению, мы не можем отключить эти ограничения самостоятельно.

Примеры общих ограничений

Ограничения robots.txt

Если файл robots.txt ограничивает поисковый робот Оптимизатора, вы получите сообщение об ошибке «robots.txt блокирует сканирование». Пожалуйста, проверьте наличие общих (User-Agent: *) или конкретных (User-Agent: Sistrix) ограничений в файле robots.txt. Если вы изменили свой пользовательский агент в настройках сканера вашего проекта, проверьте и его.

Было просканировано небольшое количество страниц или не было просканировано ни одной страницы.

Есть несколько причин, по которым наш сканер смог просканировать лишь небольшое количество страниц или вообще не просканировал их. В проекте «Оптимизатор» перейдите в «Анализ > Экспертный режим». Там вы найдете обширный список всех просканированных HTML-документов на домене. Код состояния можно найти, пролистав немного вправо таблицу. Это должно сказать вам, почему не все страницы, связанные с этим доменом, были просканированы.

200 : если код состояния равен 200, но другие страницы не были просканированы, причина часто может быть одной из следующих:
- Отсутствующие внутренние ссылки . Наш сканер переходит по всем внутренним ссылкам, которые не заблокированы для сканера. Пожалуйста, проверьте, есть ли внутренние ссылки на стартовой странице и не могут ли целевые страницы быть заблокированы для нашего поискового робота файлом robots.txt или настройками поискового робота.
- Настройки гео-IP : чтобы веб-сайт отображался на соответствующем языке каждого пользователя, IP-адрес проверяется для страны происхождения. Все наши поисковые роботы базируются в Германии, поэтому необходимо внести наш Crawler-IP в белый список, если вы хотите, чтобы он имел доступ ко всему языковому содержимому, доступному за гео-IP-барьером.
301 / 302 : Если появляется код состояния 301 или 302, проверьте, ведет ли ссылка на другой домен — например, sistrix.at, который ведет на sistrix.de через перенаправление 301. Искатель Optimizer всегда остается в домене (или хосте или каталоге), указанном в настройках проекта. Если я создам проект для sistrix.at, наш краулер распознает перенаправление 301 и покажет его в экспертном режиме, но не будет следовать перенаправлению на sistrix.de, так как это другой домен.
403 : Если код состояния 403 доставляется мгновенно или если после нескольких просканированных страниц (код состояния 200) отображаются только коды 403, вам следует проверить, почему сервер запрещает нашему сканеру запрашивать страницы. См. запись «Ограничения на стороне сервера».
5xx : Если в поле кода состояния отображается код состояния 500 или 5xx, это означает, что сервер не смог обработать наш запрос из-за ошибки сервера. В этом случае следует подождать несколько минут, а затем воспользоваться кнопкой «Перезапустить Crawler» в меню «Управление проектами». Если код состояния 5xx продолжает отображаться, проверьте, почему сервер перегружен и не может доставлять страницы.

Почему Google находит другой/больше контента, чем SISTRIX?

Наш сканер всегда начинает со стартовой страницы проекта, хотя в настройках сканера можно добавить больше стартовых страниц. С этого момента мы будем переходить по всем внутренним ссылкам, которые не заблокированы. На этих связанных страницах мы будем переходить по всем внутренним ссылкам, пока не найдем все те, которые мы еще не запросили.

Что может случиться, так это то, что, например, целевые страницы AdWords, которые не имеют внутренних ссылок, не отображаются в результатах. Обычно это делается для того, чтобы они не влияли на отслеживание AdWords. Это будет означать, что такие страницы невидимы для нашего поискового робота. Google, конечно же, знает об этих страницах.

Если вы введете карту сайта нашего проекта в Google, это может окупиться ссылкой на нее внутри robots.txt. Таким образом, наш сканер сможет распознать и использовать его в качестве базы для сканирования.

Другой причиной, по которой может быть разница между значениями проиндексированных страниц поиска Google и количеством просканированных страниц в вашем оптимизаторе, может быть дублирование контента в поисковом индексе Google.