robot.txt 작성 방법

 

검색로봇이 http://google.com/과 같은 웹 싸이트를 방문하면, 먼저 http://google.com/robots.txt 파일을 호출한다. 이로써 robot.txt 파일이 발견되면 파일을 읽어 그 내용을 분석하여 로봇에 접근 권한 및 접근 가능한 경로에 대한 정보로 수집해도 되는 콘텐트만을 수집하게 된다.


로봇은 하위 디렉토리에서 robots.txt를 호출하지 않으므로 

robots.txt 파일은 반드시 웹사이트의 루트에 위치해 두어야 한다. 


robot.txt 파일에 아래와 같이 되어있다면 해당 URL에 대하여 모든 로봇에 대해 모든 경로에 접근을 차단한다는 내용이다.


# 모든 로봇(robot)들에 적용 

user-agent: * 


# 모든 페이지들의 색인(indexing) 금지

disallow: / 


# 접근을 허용하지 않을 로봇을 설정 한다.

user-agent : 


# 허용하지 않을 항목에 대해 설정 한다.

disallow : 


만약에 "disallow"를 빈 값으로 설정 할 경우, 모든 하위 경로에 대한 접근이 가능하다.

참고로 robots.txt 파일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 한다.


 # /help.html과 /help/index.html 둘 다 허용 안함

disallow: /help         


# /help/index.html는 허용 안하나, /help.html은 허용 됨.

disallow: /help/   


페이지 차단하기

특정 파일 확장자를 차단 하는 방법은 robot.txt 파일에 아래와 같은 내용을 추가 하면된다.


# 루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부한다.

Disallow: /*.xml$      


# 루트에 text.html 과 ?가 포함된 파일의 색인을 거부한다.

Disallow: /test.html?  





Posted by esource :