robot.txt 작성 방법

검색로봇이 http://google.com/과 같은 웹 싸이트를 방문하면, 먼저 http://google.com/robots.txt 파일을 호출한다. 이로써 robot.txt 파일이 발견되면 파일을 읽어 그 내용을 분석하여 로봇에 접근 권한 및 접근 가능한 경로에 대한 정보로 수집해도 되는 콘텐트만을 수집하게 된다.

로봇은 하위 디렉토리에서 robots.txt를 호출하지 않으므로

robots.txt 파일은 반드시 웹사이트의 루트에 위치해 두어야 한다.

robot.txt 파일에 아래와 같이 되어있다면 해당 URL에 대하여 모든 로봇에 대해 모든 경로에 접근을 차단한다는 내용이다.

# 모든 로봇(robot)들에 적용

user-agent: *

# 모든 페이지들의 색인(indexing) 금지

disallow: /

# 접근을 허용하지 않을 로봇을 설정 한다.

user-agent :

# 허용하지 않을 항목에 대해 설정 한다.

disallow :

만약에 "disallow"를 빈 값으로 설정 할 경우, 모든 하위 경로에 대한 접근이 가능하다.

참고로 robots.txt 파일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 한다.

# /help.html과 /help/index.html 둘 다 허용 안함

disallow: /help

# /help/index.html는 허용 안하나, /help.html은 허용 됨.

disallow: /help/

페이지 차단하기

특정 파일 확장자를 차단 하는 방법은 robot.txt 파일에 아래와 같은 내용을 추가 하면된다.

# 루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부한다.

Disallow: /*.xml$

# 루트에 text.html 과 ?가 포함된 파일의 색인을 거부한다.

Disallow: /test.html?

저작자표시 비영리 변경금지 (새창열림)

'Webmaster' 카테고리의 다른 글

트위터 리스트에 자신을 포함시키는 방법 (0)	2013.04.19
Server Error 원인 및 조치하는 방법 (0)	2012.09.26
우리은행 환율표 코드를 적용시 문제점 (0)	2012.01.09
외환은행 환율표 악성코드 (2)	2012.01.08

잡다한 생각

robot.txt 작성 방법

'Webmaster' 카테고리의 다른 글

티스토리툴바

robot.txt 작성 방법

'Webmaster' 카테고리의 다른 글

'Webmaster' Related Articles

티스토리툴바