반응형
robots.txt 검색로봇 사용하는 방법
robots.txt? 사이트 내용을 수집합니다. 수집된 자료 대해서는 포털사이트에서 검색으로 노출 되는 방식 입니다.
로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다. 이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다. 이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다. |
<출처 - https://ko.wikipedia.org/wiki/로봇_배제_표준> |
사용방법
robots.txt 문서로 제작 후 루트 디렉토리에 저장 되어어 합니다( 예시 http://도메인.com/robots.txt)
자주 사용되는 키워드
User-agent : 로봇의 이름
Disallow : 차단URL 경로
Allow : 차단 해제 폴더
모두 방문, 수집하도록 허용 예시
User-agent: *
Allow:/
모두 방문, 수집하도록 허용 금지
User-agent: *
Disallow:/
특정 검색 로봇, 디렉토리 차단
#특정 로봇만 수집
User-agent: Yeti #네이버 검색 로봇
Allow:/
User-agent: googlebot # googlebot 로봇만 적용
Allow:/
User-agent: googlebot-news # googlebot-news 로봇만 적용
Allow:/
#특정 폴더만 차단
User-agent: *
Disallow: /private/ #private 디렉토리만 접근 차단
User-agent: googlebot # googlebot 로봇만 적용
Disallow: / #모든 디렉토리 차단
마무리
모든 곳에서 수집되는 것 허용하지만, 특정디렉토리(관리자전용) Disallow로 해당 디렉토리만 차단으로 효율적으로 포털사이트에 검색 노출으로 효과적으로 사용하는 목적이면 특정 페이지는 노출 되는 것을 미리 방지 할 수 있습니다.
반응형
'IT > Web[웹]' 카테고리의 다른 글
마이크로소프트 배경화면 정리한 사이트 (0) | 2019.10.09 |
---|---|
RSS란? (0) | 2019.10.09 |
사이트맵 (sitemap.xml) 제작 (0) | 2019.10.09 |