최적화 프로그램의 크롤링 오류

게시 됨: 2022-04-17

SISTRIX Crawler가 페이지의 모든 콘텐츠를 완전히 캡처할 수 없는 경우가 있습니다. 여기에서는 가장 일반적인 이유와 그 이유를 살펴보고 이러한 문제에 대한 솔루션을 보여줍니다.

SISTRIX 크롤러

SISTRIX 도구 상자와 관련된 모든 액세스는 SISTRIX 크롤러에 의해 수행됩니다. 이 크롤러는 두 가지 고유한 특성으로 식별할 수 있습니다. 한편으로는 페이지에 액세스할 때마다 제출되는 사용자 에이전트입니다. 기본적으로 사용자 에이전트는 다음과 같습니다.

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

반면에 SISTRIX Crawler의 모든 IP 주소는 "sistrix.net" 도메인의 호스트 이름을 가리킵니다. 예를 들어 IP 136.243.92.8 의 크롤러는 Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net 을 반환합니다.

SISTRIX Crawler는 방문한 페이지의 로드 속도를 지속적으로 주시하고 새 페이지가 요청되는 속도를 이 속도로 조정합니다. 이렇게 하면 웹 서버에 과부하가 걸리지 않도록 할 수 있습니다. 자세한 정보는 crawler.sistrix.net에서 확인할 수 있습니다.

Optimizer에서 사용자 에이전트와 Optimizer Crawler의 크롤링 강도를 제어하는 기능도 있습니다. 각 프로젝트의 "크롤링 설정" 및 "크롤링 속도" 상자의 "프로젝트 관리 > 크롤러"에서 이러한 설정을 찾을 수 있습니다.

robots.txt

웹사이트에 처음 액세스하기 전에 크롤러는 루트 디렉터리와 도메인의 각 호스트 이름에 "robots.txt"라는 이름의 파일을 요청할 것입니다. 크롤러가 이 파일을 찾으면 이를 분석하고 파일에 있는 규칙과 제한 사항을 면밀히 관찰합니다. "sistrix"에 대해서만 계산되는 규칙과 식별자 "*"가 있는 일반 규칙이 허용됩니다. robots.txt 파일을 사용하는 경우 내용을 확인하여 SISTRIX 크롤러가 실수로 제한되지 않았는지 확인하시기 바랍니다.

robots.txt에서 사이트맵을 참조하면 Google 크롤러가 크롤링 기반으로 사이트맵에 액세스합니다.

쿠키

SISTRIX Crawler는 페이지를 확인하는 동안 쿠키를 저장하지 않습니다. 크롤러가 쿠키를 수락하지 않고도 페이지의 모든 부분에 액세스할 수 있는지 확인하십시오. "Crawler-Settings" 아래의 "Project-Management"에서 크롤러의 IP를 찾을 수 있습니다.

자바스크립트

저희 크롤러는 JavaScript를 사용하지 않습니다. 크롤러가 페이지를 분석할 수 있도록 모든 페이지에 정적 HTML 페이지로 액세스할 수 있는지 확인하십시오.

서버 측 제한 사항

SISTRIX Crawler는 서버 측에서 제한될 수 있습니다. 이 경우 크롤러는 페이지에 처음 액세스할 때 HTTP 상태 코드 403(제한됨)이 포함된 오류 메시지를 받게 됩니다. 그 후에는 이 서버의 어떤 페이지에도 액세스할 수 없습니다. 이러한 서버 측 제한은 다른 시스템 수준에서 적용될 수 있습니다. 좋은 출발점은 Apache-webserver의 ".htaccess" 파일을 확인하는 것입니다. 여기에서 단서를 찾을 수 없으면 제공자나 호스트에게 문의해야 합니다. 슬프게도 우리는 이러한 제한을 스스로 비활성화할 수 없습니다.

일반적인 제한 사항의 예

robots.txt 제한

robots.txt가 Optimizer 크롤러를 제한하는 경우 "robots.txt 블록 크롤링" 오류가 발생합니다. robots.txt에 일반(User-Agent: *) 또는 특정(User-Agent: Sistrix) 제한 사항이 있는지 확인하십시오. 프로젝트의 크롤러 설정에서 사용자 에이전트를 변경한 경우 해당 항목도 확인하십시오.

크롤링된 페이지 수가 적거나 없음

Google 크롤러가 페이지를 아주 적게 크롤링하거나 아예 크롤링할 수 없는 데에는 여러 가지 이유가 있습니다. Optimizer 프로젝트에서 "Analyse > Expert Mode"로 이동합니다. 여기에서 도메인에서 크롤링된 모든 HTML 문서의 광범위한 목록을 찾을 수 있습니다. 표에서 약간 오른쪽으로 스크롤하면 상태 코드를 찾을 수 있습니다. 이를 통해 이 도메인과 연결된 모든 페이지가 크롤링되지 않은 이유를 알 수 있습니다.

200 : 상태 코드가 200이지만 크롤링된 다른 페이지가 없는 경우 그 이유는 종종 다음 중 하나입니다.
- 내부 링크 누락 : 당사 크롤러는 크롤러에 대해 차단되지 않은 모든 내부 링크를 따릅니다. 시작 페이지에 내부 링크가 있는지 확인하고 robots.txt 또는 크롤러 설정에 의해 대상 페이지가 Google 크롤러에 대해 차단될 수 있는지 확인하십시오.
- Geo-IP 설정 : 웹사이트를 모든 사용자의 해당 언어로 표시하기 위해 IP를 원산지 국가로 확인합니다. 모든 크롤러는 독일에 기반을 두고 있으므로 Geo-IP-Barrier 뒤에 있는 모든 언어 콘텐츠에 액세스하려면 Crawler-IP를 화이트리스트에 추가해야 합니다.
301 / 302 : 상태 코드 301 또는 302가 나타나면 링크가 다른 도메인으로 연결되는지 확인하십시오(예: sistrix.at, 301 리디렉션을 통해 sistrix.de로 연결됨). Optimizer 크롤러는 항상 프로젝트 설정에 입력된 도메인(또는 호스트 또는 디렉토리)에 남아 있습니다. sistrix.at용 프로젝트를 생성하면 크롤러가 301 리디렉션을 인식하고 이를 전문가 모드로 표시하지만 sistrix.de는 다른 도메인이므로 리디렉션을 따르지 않습니다.
403 : 상태 코드 403이 즉시 전달되거나 몇 개의 크롤링 가능한 페이지(상태 코드 200) 후에 403 코드만 표시되는 경우 서버가 크롤러가 페이지를 요청하지 못하도록 제한하는 이유를 확인해야 합니다. "서버 측 제한 사항" 항목을 참조하십시오.
5xx : 상태 코드 필드에 상태 코드 500 또는 5xx가 표시되면 서버 오류로 인해 서버가 요청을 처리할 수 없음을 의미합니다. 이 경우 몇 분 정도 기다렸다가 "프로젝트 관리" 메뉴에서 "크롤러 다시 시작" 버튼을 사용해야 합니다. 5xx 상태 코드가 계속 표시되면 서버가 과부하되어 페이지를 전달할 수 없는 이유를 확인하십시오.

Google이 SISTRIX 이외의 다른 콘텐츠를 찾는 이유는 무엇인가요?

크롤러 설정에서 더 많은 시작 페이지를 추가할 수 있지만 크롤러는 항상 프로젝트의 시작 페이지로 시작합니다. 이 시점부터 차단되지 않은 모든 내부 링크를 추적합니다. 이 링크된 페이지에서 우리는 아직 요청하지 않은 링크를 모두 찾을 때까지 모든 내부 링크를 따라갈 것입니다.

예를 들어 내부적으로 연결되지 않은 AdWords 방문 페이지는 결과에 나타나지 않을 수 있습니다. 이는 일반적으로 AdWords 추적에 영향을 미치지 않도록 수행됩니다. 이는 이러한 페이지가 Google 크롤러에 표시되지 않음을 의미합니다. 물론 Google은 이러한 페이지를 알고 있습니다.

Google에 우리 프로젝트의 사이트맵을 입력하면 robots.txt 내에서 링크하는 것이 효과적일 수 있습니다. 그렇게 하면 크롤러가 이를 크롤링 기반으로 인식하고 사용할 수 있습니다.

Google 검색의 인덱싱된 페이지와 최적화 프로그램의 크롤링된 페이지 수 사이에 값 차이가 있는 또 다른 이유는 Google 검색 색인의 중복 콘텐츠일 수 있습니다.