[Http(s)] robots.txt 사용하는 방법

IT/Web[웹]

robots.txt 검색로봇 사용하는 방법

robots.txt? 사이트 내용을 수집합니다. 수집된 자료 대해서는 포털사이트에서 검색으로 노출 되는 방식 입니다.

로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.

이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.

이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다.

<출처 - https://ko.wikipedia.org/wiki/로봇_배제_표준>

사용방법

robots.txt 문서로 제작 후 루트 디렉토리에 저장 되어어 합니다( 예시 http://도메인.com/robots.txt)

자주 사용되는 키워드

User-agent : 로봇의 이름
Disallow : 차단URL 경로
Allow : 차단 해제 폴더

모두 방문, 수집하도록 허용 예시

User-agent: * 
Allow:/

모두 방문, 수집하도록 허용 금지

User-agent: *
Disallow:/

특정 검색 로봇, 디렉토리 차단

#특정 로봇만 수집
User-agent: Yeti              #네이버 검색 로봇
Allow:/

User-agent: googlebot        # googlebot 로봇만 적용
Allow:/

User-agent: googlebot-news   # googlebot-news 로봇만 적용
Allow:/

#특정 폴더만 차단
User-agent: *             
Disallow: /private/           #private 디렉토리만 접근 차단

User-agent: googlebot        # googlebot 로봇만 적용
Disallow: /                   #모든 디렉토리 차단

마무리

모든 곳에서 수집되는 것 허용하지만, 특정디렉토리(관리자전용) Disallow로 해당 디렉토리만 차단으로 효율적으로 포털사이트에 검색 노출으로 효과적으로 사용하는 목적이면 특정 페이지는 노출 되는 것을 미리 방지 할 수 있습니다.

저작자표시 변경금지 (새창열림)

'IT > Web[웹]' 카테고리의 다른 글

마이크로소프트 배경화면 정리한 사이트 (0)	2019.10.09
RSS란? (0)	2019.10.09
사이트맵 (sitemap.xml) 제작 (0)	2019.10.09

IT 정보 개발자Life