본문 바로가기
카테고리 없음

robots.txt의 규칙

by 바비머니 2023. 8. 22.
728x90
반응형

robots.txt에 의해 설정된 규칙들은

SEO(검색엔진 최적화)와 홈페이지/블로그의 트래픽에 영향을 미칩니다.

개인적인 홈페이지와 블로그는 대부분

 

Uset-agent: *

Allow: /

를 사용할 것입니다.

그렇지만 티스토리 블로그에는 공통적으로 아래의 규칙이 입력되어 있습니다.

User-agent: *
Disallow: /owner
Disallow: /guestbook
Disallow: /m/guestbook
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: bingbot
Crawl-delay: 30

이것을 예시로 robots.txt의 각 속성이 무엇을 의미하고,

 

어떻게 사용되고 조합될 수 있는지 알아봅니다.

 

User-agent

수집 봇의 이름(크롤러의 제품 토큰)을 입력하는 곳입니다.

그로써 규칙의 대상이 될 수집 봇을 정해줍니다.

 

첫 번째 규칙의 User-agent에 입력된 *는 모든 수집 봇을 의미합니다. 

공통적인 규칙을 줄 때 사용합니다.

 

 

두 번째 규칙의 Mediapartners-Google는 구글 애드센스의 제품 토큰입니다.

구글의 여러 크롤러에는 모두 수 십 개의 제품 토큰이 존재합니다.

 

세 번째 규칙의 Bingbot은 빙의 제품 토큰입니다.

이렇게 개별적인 이름을 입력해서, 특정 크롤러에게만 규칙을 적용할 수 있습니다.

 

그밖의 대표적인 수집 봇의 이름은 아래와 같습니다.

 

Googlebot(구글)
Daumoa(다음)
Yeti(네이버)
Slurp(야후)

 

Disallow

봇에 의한 수집을 거부할 디렉토리입니다.

(봇에 의한 불필요한 트래픽 발생을 억제하기 위해서 설정하거나, 회원 정보, 관리 페이지 등 보안이 필요한 디렉토리에 설정합니다.)

 

첫 번째 규칙에서는 모든 수집 봇에게 몇 가지 디렉토리 수집을 거부하고 있는 것이 보입니다.

 

Allow

봇에 의한 수집을 허용할 디렉토리를 입력합니다.

첫 번째 규칙과 두 번째 규칙의

 

Allow : /

는 모든 디렉토리에의 자료 수집 허용을 의미합니다.

 

첫 번째 규칙은

 

User-agent: *

Disallow: /owner

Disallow: /manage

Disallow: /admin

Disallow: /oldadmin

Disallow: /search

Disallow: /m/search

Disallow: /m/admin

Disallow: /like

Allow: /

 

모든 수집 봇이 설정된 몇 가지 디렉토리의 자료를 수집할 수 없고, 그밖의 모든 디렉토리의 자료는 수집할 수 있도록 허용합니다.

 

두 번째 규칙은

 

User-agent: Mediapartners-Google

Allow: /

 

구글 애드센스의 수집 봇은 모든 디렉토리의 자료를 수집할 수 있도록 허용합니다.

 

Allow와 Disallow는

 

Disallow : /private

Allow : /private/something.xml

 

과 같은 조합으로도 사용할 수 있습니다.

 

 

세 번째 규칙에는 Crawl-delay 라는 설정이 등장합니다.

 

봇에 의한 수집이 너무 자주 발생하지 않게 딜레이를 둘 수 있으며, 1~30의 값이 입력됩니다.

 

세 번째 규칙은

 

User-agent: bingbot

Crawl-delay: 30

 

Bingbot(빙의 수집 봇)은 한 번 수집을 하면, 30초 이내에는 다시 수집을 하지 않습니다.

 

수집 봇이 수집 목적으로 도메인에 너무 자주 방문해서 불필요한 트래픽이 과하게 발생할 때 주로 사용합니다.

 

 

 

 

 

 

 

 

반응형

댓글