robots.txt는 무엇입니까? 예를 들어 설명하기 위한 초보자 가이드

게시 됨: 2022-03-29

나무 로봇 그림은 잔디 패치에 서 있습니다.
아, robots.txt — 큰 의미를 지닌 작은 파일 하나. 이것은 여러분이 틀리고 싶지 않은 하나의 기술적 SEO 요소입니다.

이 기사에서는 모든 웹사이트에 robots.txt가 필요한 이유와 생성 방법(SEO에 문제를 일으키지 않고)을 설명합니다. 일반적인 FAQ에 답변하고 웹사이트에 적절하게 실행하는 방법의 예를 포함하겠습니다. 또한 모든 세부 사항을 다루는 다운로드 가능한 가이드를 제공합니다.

내용물:

robots.txt는 무엇입니까?
robots.txt가 중요한 이유는 무엇입니까?
하지만 robots.txt가 필요한가요?
robots.txt에 어떤 문제가 발생할 수 있습니까?
robots.txt는 어떻게 작동합니까?
오류 없이 robots.txt를 만들기 위한 팁
robots.txt 테스터
로봇 배제 프로토콜 가이드(무료 다운로드)

robots.txt는 무엇입니까?

Robots.txt는 웹사이트 게시자가 만들고 웹사이트 루트에 저장하는 텍스트 파일입니다. 그 목적은 검색 엔진 봇과 같은 자동화된 웹 크롤러에게 웹사이트에서 크롤링하지 말아야 할 페이지를 알려주는 것입니다. 이것은 로봇 배제 프로토콜이라고도 합니다.

Robots.txt는 제외된 URL이 검색을 위해 인덱싱되지 않는다고 보장하지 않습니다. 그 이유는 검색 엔진 스파이더가 해당 페이지에 링크되는 다른 웹 페이지를 통해 해당 페이지가 존재한다는 것을 계속 찾을 수 있기 때문입니다. 또는 페이지가 여전히 과거의 색인일 수 있습니다(나중에 자세히 설명).

또한 Robots.txt는 자발적 시스템이기 때문에 봇이 제외된 페이지를 크롤링하지 않는다는 것을 절대적으로 보장하지 않습니다. 주요 검색 엔진 봇이 귀하의 지시를 따르지 않는 경우는 드뭅니다. 그러나 스팸봇, 맬웨어 및 스파이웨어와 같은 나쁜 웹 로봇은 명령을 따르지 않는 경우가 많습니다.

robots.txt 파일은 공개적으로 액세스할 수 있습니다. 도메인 URL 끝에 /robots.txt를 추가하면 robots.txt 파일을 볼 수 있습니다(여기에 있는 것처럼). 따라서 업무상 중요한 정보를 포함할 수 있는 파일이나 폴더를 포함하지 마십시오. 또한 robots.txt 파일에 의존하여 검색 엔진에서 개인 정보 또는 민감한 데이터를 보호하지 마십시오.

자, 주의 사항은 생략하고 계속 진행하겠습니다...

robots.txt가 중요한 이유는 무엇입니까?

검색 엔진 봇에는 웹 페이지를 크롤링하고 색인을 생성하는 지시문이 있습니다. robots.txt 파일을 사용하면 크롤링에서 페이지, 디렉토리 또는 전체 사이트를 선택적으로 제외할 수 있습니다.

이것은 다양한 상황에서 유용할 수 있습니다. 다음은 robots.txt를 사용하려는 몇 가지 상황입니다.

크롤링/인덱싱하지 않아야 하는 특정 페이지 또는 파일(예: 중요하지 않거나 유사한 페이지)을 차단하려면
업데이트하는 동안 웹사이트의 특정 부분에 대한 크롤링을 중지하려면
사이트맵의 위치를 검색 엔진에 알리려면
비디오, 오디오 파일, 이미지, PDF 등과 같은 사이트의 특정 파일을 무시하고 검색 결과에 나타나지 않도록 검색 엔진에 지시
서버가 요청으로 과도하지 않도록 하기 위해*

*robots.txt를 사용하여 불필요한 크롤링을 차단하는 것은 서버의 부담을 줄이고 봇이 좋은 콘텐츠를 보다 효율적으로 찾는 데 도움이 되는 한 가지 방법입니다. Google은 여기에서 편리한 차트를 제공합니다. 또한 Bing은 너무 많은 요청을 방지하고 서버 과부하를 방지하는 데 도움이 되는 크롤링 지연 지시문을 지원합니다.

물론 robots.txt의 응용 프로그램은 많이 있으며 이 기사에서 더 많이 설명하겠습니다.

하지만 robots.txt가 필요한가요?

비어 있더라도 모든 웹사이트에는 robots.txt 파일이 있어야 합니다. 검색 엔진 봇이 웹사이트에 올 때 가장 먼저 찾는 것은 robots.txt 파일입니다.

존재하지 않으면 스파이더에 404(찾을 수 없음) 오류가 표시됩니다. Google에서는 robots.txt 파일이 없어도 Googlebot이 계속해서 사이트를 크롤링할 수 있다고 말하지만 404 오류를 생성하는 것보다 봇이 로드를 요청하는 첫 번째 파일을 갖는 것이 더 낫다고 생각합니다.

robots.txt에서 어떤 문제가 발생할 수 있습니까?

이 간단한 작은 파일은 주의하지 않으면 SEO에 문제를 일으킬 수 있습니다. 다음은 주의해야 할 몇 가지 상황입니다.

1. 실수로 전체 사이트 차단

이 문제는 생각보다 자주 발생합니다. 개발자는 robots.txt를 사용하여 사이트를 개발하는 동안 사이트의 새 섹션이나 재설계된 섹션을 숨길 수 있지만 실행 후에는 차단 해제 하는 것을 잊어버릴 수 있습니다. 기존 사이트인 경우 이 실수로 인해 검색 엔진 순위가 갑자기 하락할 수 있습니다.

새로운 사이트나 사이트 섹션 출시를 준비하는 동안 크롤링을 끌 수 있어 편리합니다. 사이트가 활성화되면 robots.txt에서 해당 명령을 변경하는 것을 잊지 마십시오.

2. 이미 색인이 생성된 페이지 제외

색인이 생성된 robots.txt 페이지를 차단하면 해당 페이지가 Google 색인에서 멈춥니다.

이미 검색 엔진의 색인에 있는 페이지를 제외하면 해당 페이지는 그대로 유지됩니다. 실제로 색인에서 제거하려면 페이지 자체에 메타 로봇 "noindex" 태그를 설정하고 Google에서 크롤링하고 처리하도록 해야 합니다. 페이지가 색인에서 삭제되면 robots.txt에서 차단하여 Google에서 앞으로 요청하지 못하도록 합니다.

robots.txt는 어떻게 작동합니까?

robots.txt 파일을 만들려면 메모장이나 TextEdit와 같은 간단한 응용 프로그램을 사용할 수 있습니다. robots.txt 라는 파일 이름으로 저장하고 웹사이트의 루트에 www.domain.com/robots.txt로 업로드합니다. 여기에서 스파이더가 찾을 수 있습니다.

간단한 robots.txt 파일은 다음과 같습니다.

사용자 에이전트: *
허용하지 않음: /디렉토리 이름/

Google은 robots.txt 생성에 대한 도움말 파일의 robots.txt 파일 내에서 그룹의 여러 행이 의미하는 바를 잘 설명합니다.

각 그룹은 여러 규칙 또는 지시문(명령어)으로 구성되며 한 줄에 하나의 지시문입니다.
그룹은 다음 정보를 제공합니다.
그룹이 적용되는 대상(사용자 에이전트)
에이전트가 액세스할 수 있는 디렉터리 또는 파일
에이전트가 액세스할 수 없는 디렉터리 또는 파일

다음에는 robots.txt 파일의 다양한 지시문에 대해 자세히 설명하겠습니다.

Robots.txt 지시문

robots.txt 내에서 사용되는 일반적인 구문은 다음과 같습니다.

사용자 에이전트

사용자 에이전트는 명령을 제공하는 봇(예: Googlebot 또는 Bingbot)을 나타냅니다. 다른 사용자 에이전트에 대해 여러 지시문을 가질 수 있습니다. 그러나 * 문자를 사용하는 경우(이전 섹션에 표시된 대로) 이는 모든 사용자 에이전트를 의미하는 포괄적인 것입니다. 여기에서 사용자 에이전트 목록을 볼 수 있습니다.

허용하지 않음

Disallow 규칙은 웹 로봇 액세스에서 제외할 폴더, 파일 또는 전체 디렉토리를 지정합니다. 예에는 다음이 포함됩니다.

로봇이 전체 웹사이트를 스파이더링하도록 허용:

사용자 에이전트: *
허용하지 않음:

전체 웹사이트에서 모든 로봇을 허용하지 않습니다.

사용자 에이전트: *
허용하지 않음: /

"/myfolder/"의 모든 로봇과 "myfolder"의 모든 하위 디렉토리를 허용하지 않습니다.

사용자 에이전트: *
허용하지 않음: /myfolder/

모든 로봇이 "myfile.html"로 시작하는 파일에 액세스하는 것을 허용하지 않습니다.

사용자 에이전트: *
허용하지 않음: /myfile.html

Googlebot이 'my'로 시작하는 파일 및 폴더에 액세스하지 못하도록 차단:

사용자 에이전트: googlebot
허용하지 않음: /my

허용하다

이 명령은 Googlebot에만 적용되며 상위 디렉토리 또는 웹페이지가 허용되지 않는 경우에도 하위 디렉토리 폴더 또는 웹페이지에 액세스할 수 있음을 알려줍니다.

다음 예를 살펴보십시오. /scripts/folder에서 page.php를 제외한 모든 로봇을 허용하지 않습니다.

허용하지 않음: /scripts/
허용: /scripts/page.php

크롤링 지연

이것은 봇에게 웹 페이지를 크롤링할 때까지 기다려야 하는 시간을 알려줍니다. 웹사이트는 서버 대역폭을 보존하기 위해 이것을 사용할 수 있습니다. Googlebot은 이 명령을 인식하지 못하며 Google은 Search Console을 통해 크롤링 속도를 변경하도록 요청합니다. 크롤링 지연은 웹사이트의 시의적절하고 효과적인 크롤링에 상당한 영향을 미칠 수 있으므로 가능하면 크롤링 지연을 피하거나 주의하여 사용하십시오.

와일드카드 문자

특정 URL 유형을 처리하는 방법에 대해 로봇에게 지시하는 데 도움이 되는 두 가지 문자가 있습니다.

캐릭터. 앞서 언급했듯이 하나의 규칙 세트로 여러 로봇에 지시문을 적용할 수 있습니다. 다른 용도는 URL의 문자 시퀀스를 일치시켜 해당 URL을 허용하지 않는 것입니다.

예를 들어 다음 규칙은 Googlebot이 '페이지'가 포함된 URL에 액세스하는 것을 허용하지 않습니다.

사용자 에이전트: googlebot
허용하지 않음: /*페이지

$ 문자. $는 로봇이 URL 끝에 있는 모든 시퀀스와 일치하도록 지시합니다. 예를 들어 웹 사이트의 모든 PDF 크롤링을 차단할 수 있습니다.

사용자 에이전트: *
허용하지 않음: /*.pdf$

$ 및 * 와일드카드 문자를 결합할 수 있으며 허용 및 금지 지시문에 대해 결합할 수 있습니다.

예를 들어 모든 asp 파일 허용 안 함:

사용자 에이전트: *
허용하지 않음: /*asp$

끝을 지정하는 $로 인해 쿼리 문자열 또는 폴더가 있는 파일은 제외되지 않습니다.
asp – /pretty-wasp 앞의 와일드카드로 인해 제외됨
asp - /login.asp 앞의 와일드카드로 인해 제외됨
$ 및 쿼리 문자열(?forgotten-password=1)이 포함된 URL로 인해 제외되지 않음 – /login.asp?forgotten-password=1

크롤링하지 않음 vs. 인덱싱하지 않음

Google에서 페이지의 색인을 생성하지 않도록 하려면 robots.txt 파일 외에 다른 방법이 있습니다. Google이 여기에서 지적한 바와 같이:

크롤러를 차단하려면 어떤 방법을 사용해야 합니까?
robots.txt: 콘텐츠 크롤링으로 인해 서버에 문제가 발생하는 경우 사용합니다. 예를 들어, 무한 캘린더 스크립트의 크롤링을 허용하지 않을 수 있습니다. robots.txt를 사용하여 비공개 콘텐츠를 차단하거나(대신 서버 측 인증 사용) 정규화를 처리하면 안 됩니다. URL이 인덱싱되지 않도록 하려면 대신 robots 메타 태그 또는 X-Robots-Tag HTTP 헤더를 사용하세요.
robots 메타 태그: 개별 HTML 페이지가 검색 결과에 표시되는 방식을 제어해야 하거나 표시되지 않도록 해야 하는 경우 사용합니다.
X-Robots-Tag HTTP 헤더: HTML이 아닌 콘텐츠가 검색 결과에 표시되는 방식을 제어해야 하는 경우(또는 표시되지 않도록 하기 위해) 사용합니다.

다음은 Google의 추가 지침입니다.

Google이 페이지를 크롤링하지 못하도록 차단하면 Google 색인에서 해당 페이지가 제거될 수 있습니다.
그러나 robots.txt Disallow는 페이지가 결과에 표시되지 않는다는 것을 보장하지 않습니다. Google은 들어오는 링크와 같은 외부 정보를 기반으로 여전히 관련성이 있다고 결정할 수 있습니다. 페이지의 색인이 생성되는 것을 명시적으로 차단하려면 대신 noindex robots 메타 태그 또는 X-Robots-Tag HTTP 헤더를 사용해야 합니다. 이 경우 태그를 보고 준수하려면 페이지를 크롤링해야 하므로 robots.txt의 페이지를 허용하지 않아야 합니다.

오류 없이 robots.txt를 만들기 위한 팁

robots.txt 파일을 만들 때 명심해야 할 몇 가지 팁은 다음과 같습니다.

명령은 대소문자를 구분합니다. 예를 들어 Disallow 에는 대문자 "D"가 필요합니다.
명령에서 항상 콜론 뒤에 공백을 포함하십시오.
전체 디렉토리를 제외할 때 다음과 같이 디렉토리 이름 앞뒤에 슬래시를 넣으십시오. /directory-name/
특별히 제외되지 않은 모든 파일은 봇이 크롤링할 수 있도록 포함됩니다.

robots.txt 테스터

항상 robots.txt 파일을 테스트하십시오. 웹사이트 게시자가 이를 잘못 이해하면 SEO 전략이 파괴될 수 있다고 생각하는 것이 더 일반적입니다(예: 중요한 페이지 또는 전체 웹사이트의 크롤링을 허용하지 않는 경우).

Google의 robots.txt 테스터 도구를 사용하세요. 여기에 대한 정보를 찾을 수 있습니다.

로봇 배제 프로토콜 가이드

이 기사보다 더 자세한 정보가 필요하면 로봇 배제 프로토콜 가이드 를 다운로드하십시오. robots.txt를 작성하는 방법에 대한 자세한 내용을 제공하기 위해 참조용으로 저장하고 인쇄할 수 있는 무료 PDF입니다.

마무리 생각

robots.txt 파일은 겉보기에 단순한 파일이지만 웹사이트 게시자가 봇이 웹사이트를 크롤링하는 방법에 대한 복잡한 지시를 내릴 수 있도록 합니다. 잘못하면 SEO 프로그램이 지워질 수 있으므로 이 파일을 올바르게 가져오는 것이 중요합니다.

robots.txt를 사용하는 방법에 대한 뉘앙스가 너무 많기 때문에 robots.txt에 대한 Google의 소개를 반드시 읽으십시오.

인덱싱 문제 또는 기술적 SEO 전문 지식이 필요한 기타 문제가 있습니까? 무료 상담 및 서비스 견적을 원하시면 오늘 저희에게 연락하십시오.