구글 블로거(블로그스팟) robots.txt 규칙 설정 및 의미 설명!!

검색 엔진 최적화(SEO)에 관심 있는 블로그스팟(Blogger) 사용자라면 robots.txt 파일의 중요성을 알고 계실 겁니다.

robots.txt는 검색 엔진 봇에게 어떤 페이지를 크롤링하고 색인 해야 하는지 알려주는 파일로, 블로그 관리 및 SEO 전략에 필수적인 요소입니다.

이 글에서는 블로그스팟에서 robots.txt 규칙을 설정하는 방법과 각 규칙의 의미를 자세히 알려드립니다.

맞춤 robost.txt

구글 블로거(블로그스팟) 대시보드 -> 설정 -> 크롤러 및 색인 생성 -> 맞춤 robots.txt

robots.txt 규칙 설명


  # Sitemap 정보 제공
  Sitemap: https://블로그(도메인 & 사이트)주소/sitemap.xml
  Sitemap: https://블로그(도메인 & 사이트)주소/sitemap-pages.xml
  
  # 모든 봇에 대한 기본 설정
  User-agent: *
  Disallow: /search*
  Disallow: /20*
  Allow: /*.html
  
  # 특정 검색 엔진 봇 허용
  User-agent: googlebot
  Allow: /
  User-agent: bingbot
  Allow: /
  User-agent: DuckDuckGo
  Allow: /
  User-agent: YandexBot
  Allow: /
  User-agent: yeti
  Allow: /
  User-agent: Daum
  Allow: /
  
  # Google Adsense 봇 허용
  User-agent: Mediapartners-Google
  Allow: /
  
  # 특정 봇 (BadBot) 접근 제한
  User-agent: BadBot
  Disallow: /
  
  # 미 적용 규칙
  # Disallow: /feeds*
  
  # 접근 금지 URL 주소
  Disallow: /특정페이지주소

Sitemap 정보 제공

Sitemap: https://블로그(도메인 & 사이트)주소/sitemap.xml
Sitemap: https://블로그(도메인 & 사이트)주소/sitemap-pages.xml

검색 엔진 봇에게 사이트맵 파일의 위치를 알려줍니다. 사이트맵은 웹사이트의 모든 페이지 목록을 담고 있어, 검색 엔진이 사이트 구조를 파악하고 모든 페이지를 효율적으로 색인하는 데 도움을 줍니다.

모든 봇에 대한 기본 설정 (허용)

User-agent: * (모든 봇)
Allow: /*.html (HTML 확장자를 가진 모든 파일 허용)
Disallow: /search* (주소에 "/search" 포함된 페이지 제외)
Disallow: /20* (주소에 "/20"으로 시작하는 페이지 제외)

모든 봇(검색 엔진, 광고 봇 등)은 블로그의 모든 HTML 페이지(.html)에 접근할 수 있지만, 검색 결과 페이지(/search)와 특정 연도별 보관함 페이지(/20*)는 제외됩니다. 이는 검색 엔진이 블로그의 핵심 콘텐츠를 효율적으로 수집하고, 불필요한 페이지의 노출을 줄여 검색 결과의 품질을 높이는 데 도움을 줍니다.

특정 검색 엔진 봇 허용

User-agent: googlebot (Google 봇)
Allow: / (모든 페이지 허용)
User-agent: bingbot (Bing 봇)
Allow: / (모든 페이지 허용)
User-agent: DuckDuckGo (DuckDuckGo 봇)
Allow: / (모든 페이지 허용)
User-agent: YandexBot (Yandex 봇)
Allow: / (모든 페이지 허용)
User-agent: yeti (Naver 봇)
Allow: / (모든 페이지 허용)
user-agent:Daum (Daum 봇)
Allow: / (모든 페이지 허용)

Google, Bing, DuckDuckGo, Yandex, Naver, Daum 검색 엔진 봇이 사이트의 모든 페이지에 접근할 수 있도록 명시적으로 허용합니다.

Google Adsense 봇 허용

User-agent: Mediapartners-Google (Google Adsense 봇)
Allow: / (모든 페이지 허용)

Google Adsense 봇이 광고 관련 정보를 수집하기 위해 사이트의 모든 페이지에 접근할 수 있도록 허용합니다.

특정 봇 (BadBot) 접근 제한

User-agent: BadBot (BadBot)
Disallow: / (모든 페이지 접근 제한)

악성 봇으로 알려진 BadBot의 모든 페이지 접근을 차단합니다.

미 적용 규칙

# Disallow: /feeds* (주석 처리된 규칙)

주석으로 처리된 # Disallow: /feeds* 규칙은 현재 비활성화되어 있어 모든 봇이 /feeds로 시작하는 페이지 (일반적으로 RSS/Atom 피드)에 접근할 수 있습니다. 이는 블로그의 콘텐츠를 다른 플랫폼이나 서비스에서 활용하도록 허용하는 경우 유용합니다. 하지만, 피드 페이지를 통해 콘텐츠가 무분별하게 복제되거나, 검색 엔진 색인에 불필요한 부담을 줄 수 있다는 우려가 있다면, 이 규칙을 활성화하여 봇의 접근을 제한할 수 있습니다. 규칙 활성화 여부는 블로그 운영 목적과 콘텐츠 관리 방식에 따라 결정해야 합니다.

접근 금지 URL 주소

Disallow: /특정페이지주소

이 규칙은 특정 페이지에 대한 모든 봇의 접근을 명시적으로 금지합니다.

주의사항

robots.txt 파일은 검색 엔진 봇에게 권고사항을 제공하는 것이며, 모든 봇이 이를 반드시 따르는 것은 아닙니다.
robots.txt 파일은 대소문자를 구분합니다.
규칙은 위에서 아래로 순차적으로 적용되므로, 특정 봇에 대한 규칙은 일반 규칙보다 아래에 위치해야 합니다.