Treasurej's Blog

로봇 배제 표준 [robots.txt]

로봇 배제 표준이란 말 그대로 웹 문서를 수집해 가는 로봇을 배제한다는 뜻입니다.

로봇의 배제와 관련된 내용을 적고  파일명을 robots.txt  로 하여 사이트의 최상위 주소(루트 디렉토리= FTP로 접속하면 처음 나타나는 페이지) 에 저장하면 됩니다.

 

(예:http://ememo.kor.st/robots.txt)

robots.txt를 서브디렉토리에 저장할 경우에는 효력이 없습다.

로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐입니다.

로봇의 접근을 어디까지 허용할 것이냐에 따라 robots.txt에 들어가는 내용은 달라집니다.

 

(http://www.robotstxt.org/robotstxt.html)

 

robotstext.jpg

 

[robots.txt 저장 방법]

 

To exclude all robots from the entire server
(사이트 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때 )
User-agent: *
Disallow: /
 
To allow all robots complete access
(사이트 전체가 모든 검색엔진에 노출되기를 원할 때 )
User-agent: *
Disallow:

(or just create an empty "/robots.txt" file, or don't use one at all)

 

To exclude all robots from part of the server
( 디렉토리의 일부만 검색엔진에 노출하고 싶을 때)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

(로봇은 cgi-bin,tmp,junk라는 폴더에 속한 웹문서에 접근할 수 없습니다.)

 

To exclude a single robot
(전체가 검색되길 원하지만 특정 검색엔진을 거부하고 싶을 때)
User-agent: BadBot
Disallow: /

(“BadBot”이라는 이름을 가진 로봇만을 배제하게 됩니다.)

 

To allow a single robot
(전체가 검색되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때)
User-agent: Google
Disallow:

User-agent: *
Disallow: /

(이 경우 GoogleBot만이 웹문서를 수집해갈 수 있습니다.)

 

“robots.txt”를 작성하는 것과 유사한 방법으로

HTML문서의 (HEAD)와 (/HEAD)태그 사이에(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")라는 메타태그를 추가하면 로봇은 웹 문서를 가져갈 수 없습니다.

이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다.

(로봇 배제에 대한 보다 자세한 내용은  http://www.robotstxt.org 에서 확인할 수 있습니다.)


Categories

전체글 (75)

Recent Entries

Public Voice

Trackbacks

Favorite Tags

Follow treasurej on Twitter  treasurej facebook  treasurej's blog rss 2.0


You can also find us on the following sites : Lifestyle | Mind | Professional | Blog