[Http(s)] robots.txt 사용하는 방법

반응형
robots.txt 검색로봇 사용하는 방법

robots.txt?  사이트 내용을 수집합니다.  수집된 자료 대해서는 포털사이트에서 검색으로 노출 되는 방식 입니다.

 

로봇 배제 표준 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.

이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.

이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다.

<출처 - https://ko.wikipedia.org/wiki/로봇_배제_표준

 

 사용방법

robots.txt 문서로 제작 후 루트 디렉토리에 저장 되어어 합니다( 예시 http://도메인.com/robots.txt

 

 

자주 사용되는 키워드

User-agent : 로봇의 이름
Disallow : 차단URL 경로
Allow : 차단 해제 폴더

 

모두 방문, 수집하도록 허용 예시
User-agent: * 
Allow:/
 모두 방문, 수집하도록  허용 금지
User-agent: *
Disallow:/
 특정 검색 로봇, 디렉토리 차단
#특정 로봇만 수집
User-agent: Yeti              #네이버 검색 로봇
Allow:/

User-agent: googlebot        # googlebot 로봇만 적용
Allow:/

User-agent: googlebot-news   # googlebot-news 로봇만 적용
Allow:/

#특정 폴더만 차단
User-agent: *             
Disallow: /private/           #private 디렉토리만 접근 차단

User-agent: googlebot        # googlebot 로봇만 적용
Disallow: /                   #모든 디렉토리 차단

 

 마무리

모든 곳에서  수집되는 것 허용하지만, 특정디렉토리(관리자전용) Disallow로  해당 디렉토리만 차단으로 효율적으로  포털사이트에 검색 노출으로 효과적으로 사용하는 목적이면 특정 페이지는 노출 되는 것을 미리 방지 할 수 있습니다.

 

 

 

반응형

이 글을 공유하기

댓글