Błędy indeksowania w Optymalizatorze

Opublikowany: 2022-04-17

Może się zdarzyć, że Crawler SISTRIX nie może całkowicie przechwycić całej zawartości strony. Tutaj przyjrzymy się najczęstszym przyczynom, a także przyczynom i pokażemy rozwiązania tych problemów.

Robot SISTRIX

Wszelki dostęp związany z SISTRIX Toolbox jest wykonywany przez robota SISTRIX. Tego Crawlera można rozpoznać po dwóch odrębnych cechach: z jednej strony jest to klient użytkownika, który jest przesyłany za każdym razem, gdy odwiedzana jest strona. Domyślnie klient użytkownika to:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

Z drugiej strony, wszystkie adresy IP przeszukiwacza SISTRIX wskazują na nazwę hosta domeny „sistrix.net”. Na przykład nasz robot indeksujący na adresie IP 136.243.92.8 zwróciłby wpis Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net .

Crawler SISTRIX stale monitoruje szybkość ładowania odwiedzanych stron i dostosowuje szybkość, z jaką żądane są nowe strony, do tej szybkości. W ten sposób możemy zapewnić, że nie przeciążymy serwera WWW. Więcej informacji można znaleźć na stronie crawler.sistrix.net.

W Optimizer masz również możliwość kontrolowania klienta użytkownika i intensywności indeksowania Optimizer Crawler. Te ustawienia znajdziesz w każdym projekcie w „Zarządzanie projektami > Przeszukiwacz” w polach „Ustawienia indeksowania” i „Prędkość indeksowania”.

robots.txt

Przed pierwszym wejściem na stronę internetową nasz robot indeksujący poprosi o plik o nazwie „robots.txt” w katalogu głównym, a także w każdej nazwie hosta domeny. Jeśli robot indeksujący znajdzie ten plik, analizuje go i ściśle przestrzega reguł i ograniczeń znalezionych w pliku. Akceptowane będą zasady, które liczą się tylko dla „sistrix” oraz zasady ogólne z identyfikatorem „*”. Jeśli użyjesz pliku robots.txt, prosimy o sprawdzenie jego zawartości, aby upewnić się, że robot SISTRIX nie został przypadkowo ograniczony.

Jeśli w pliku robots.txt odniesiesz się do mapy witryny, nasz robot uzyska do niej dostęp jako bazę indeksowania.

Ciasteczka

Robot SISTRIX nie zapisuje plików cookie podczas sprawdzania strony. Upewnij się, że nasz robot indeksujący ma dostęp do wszystkich części strony bez konieczności akceptowania plików cookie. Adres IP naszego robota znajdziesz w „Zarządzaniu projektami” w „Ustawieniach robota”.

JavaScript

Nasz robot nie korzysta z JavaScript. Upewnij się, że wszystkie strony są dostępne jako statyczne strony HTML, aby nasz robot mógł je przeanalizować.

Ograniczenia po stronie serwera

Crawler SISTRIX może zostać ograniczony po stronie serwera. W takim przypadku nasz robot indeksujący otrzyma komunikat o błędzie z kodem stanu HTTP 403 (z ograniczeniami) przy pierwszym wejściu na stronę. Następnie nie będzie mógł uzyskać dostępu do żadnych stron na tym serwerze. Takie ograniczenie po stronie serwera może być wprowadzone na różnych poziomach systemu. Dobrym punktem wyjścia byłoby sprawdzenie pliku „.htaccess” serwera Apache-webserver. Jeśli nie znajdziesz tu żadnych wskazówek, skontaktuj się z dostawcą lub gospodarzem. Niestety nie jesteśmy w stanie sami dezaktywować tych ograniczeń.

Przykłady typowych ograniczeń

Ograniczenia pliku robots.txt

Jeśli plik robots.txt ogranicza nasz robot indeksujący Optimizer, pojawi się błąd „robots.txt blokuje indeksowanie”. Sprawdź, czy w Twoim pliku robots.txt znajdują się ograniczenia ogólne (User-Agent: *) czy konkretne (User-Agent: Sistrix). Jeśli zmieniłeś swojego klienta użytkownika w ustawieniach robota indeksującego swojego projektu, sprawdź je również.

Zaindeksowano tylko niewielką liczbę stron lub nie było ich wcale

Istnieje wiele powodów, dla których nasz robot indeksujący mógł zaindeksować tylko niewielką liczbę stron lub w ogóle ich nie indeksować. W projekcie Optimizer przejdź do „Analiza > Tryb eksperta”. Znajdziesz tam obszerną listę wszystkich zindeksowanych dokumentów HTML w domenie. Kod statusu można znaleźć, przewijając nieco w prawo w tabeli. Powinno to powiedzieć, dlaczego nie wszystkie strony powiązane z tą domeną zostały zaindeksowane.

200 : jeśli kod stanu to 200, ale żadne inne strony nie zostały zindeksowane, przyczyną jest często jeden z następujących powodów:
- Brakujące linki wewnętrzne : nasz robot śledzi wszystkie linki wewnętrzne, które nie są dla niego zablokowane. Sprawdź, czy na stronie początkowej znajdują się linki wewnętrzne i czy strony docelowe mogą być zablokowane dla naszego robota przez plik robots.txt lub ustawienia robota.
- Ustawienia Geo-IP : Aby prezentować witrynę w odpowiednim języku każdego użytkownika, adres IP jest sprawdzany pod kątem kraju pochodzenia. Wszystkie nasze roboty indeksujące mają siedzibę w Niemczech, co sprawia, że konieczne jest umieszczenie na białej liście naszego adresu IP robota indeksującego, jeśli chcesz, aby miał dostęp do wszystkich treści językowych dostępnych za barierą Geo-IP.
301 / 302 : Jeśli pojawi się kod stanu 301 lub 302, sprawdź, czy link prowadzi do innej domeny – na przykład sistrix.at, która prowadzi do sistrix.de poprzez przekierowanie 301. Robot indeksujący Optimizer zawsze pozostaje w domenie (lub hoście lub katalogu) wprowadzonej w ustawieniach projektu. Jeśli stworzę projekt dla sistrix.at, nasz robot rozpoznałby przekierowanie 301 i pokazałby je w trybie eksperta, ale nie podążyłby za przekierowaniem do sistrix.de, ponieważ jest to inna domena.
403 : jeśli kod stanu 403 jest dostarczany natychmiast lub jeśli po kilku możliwych do zindeksowania stronach (kod stanu 200) wyświetlanych jest tylko kod 403, sprawdź, dlaczego serwer ogranicza naszemu robotowi indeksującemu możliwość żądania stron. Proszę zapoznać się z wpisem „Ograniczenia po stronie serwera”.
5xx : Jeśli kod statusu 500 lub 5xx jest wyświetlany w polu kodu statusu, oznacza to, że serwer nie był w stanie obsłużyć naszego żądania z powodu błędu serwera. W takim przypadku należy odczekać kilka minut, a następnie użyć przycisku „Restart Crawler” w menu „Project-Management”. Jeśli kod statusu 5xx nadal się wyświetla, sprawdź, dlaczego serwer jest przeciążony i nie może dostarczyć stron.

Dlaczego Google znajduje inne/więcej treści niż SISTRIX?

Nasz robot zawsze zaczyna się od strony startowej projektu, chociaż w ustawieniach robota można dodać więcej stron startowych. Od tego momentu będziemy śledzić wszystkie linki wewnętrzne, które nie są blokowane. Na tych powiązanych stronach będziemy śledzić wszystkie wewnętrzne linki, dopóki nie znajdziemy wszystkich tych, o które jeszcze nie prosiliśmy.

Może się zdarzyć, że na przykład strony docelowe AdWords, które nie są połączone wewnętrznie, nie pojawią się w wynikach. Zwykle dzieje się tak, aby nie miały wpływu na śledzenie AdWords. Oznacza to, że takie strony będą niewidoczne dla naszego robota. Google oczywiście zna te strony.

Jeśli wpiszesz mapę witryny naszego projektu z Google, może się opłacić link do niej w robots.txt. W ten sposób nasz robot może go rozpoznać i wykorzystać jako bazę do indeksowania.

Innym powodem, dla którego mogą występować różnice wartości między zindeksowanymi stronami wyszukiwarki Google a liczbą stron zindeksowanych w optymalizatorze, może być zduplikowana treść w indeksie wyszukiwania Google.