구글 블로거(블로그스팟) robots.txt 규칙 설정 및 의미 설명!!

구글 블로거(블로그스팟) robots.txt 규칙 설정 및 의미 설명 썸네일 이미지

검색 엔진 최적화(SEO)에 관심 있는 블로그스팟(Blogger) 사용자라면 robots.txt 파일의 중요성을 알고 계실 겁니다.

robots.txt는 검색 엔진 봇에게 어떤 페이지를 크롤링하고 색인 해야 하는지 알려주는 파일로, 블로그 관리 및 SEO 전략에 필수적인 요소입니다.

이 글에서는 블로그스팟에서 robots.txt 규칙을 설정하는 방법과 각 규칙의 의미를 자세히 알려드립니다.

맞춤 robost.txt

구글 블로거(블로그스팟) 대시보드 -> 설정 -> 크롤러 및 색인 생성 -> 맞춤 robots.txt

맞춤 robost.txt 위치 이미지

robots.txt 규칙 설명


  # Sitemap 정보 제공
  Sitemap: https://블로그(도메인 & 사이트)주소/sitemap.xml
  Sitemap: https://블로그(도메인 & 사이트)주소/sitemap-pages.xml
  
  # 모든 봇에 대한 기본 설정
  User-agent: *
  Disallow: /search*
  Disallow: /20*
  Allow: /*.html
  
  # 특정 검색 엔진 봇 허용
  User-agent: googlebot
  Allow: /
  User-agent: bingbot
  Allow: /
  User-agent: DuckDuckGo
  Allow: /
  User-agent: YandexBot
  Allow: /
  User-agent: yeti
  Allow: /
  User-agent: Daum
  Allow: /
  
  # Google Adsense 봇 허용
  User-agent: Mediapartners-Google
  Allow: /
  
  # 특정 봇 (BadBot) 접근 제한
  User-agent: BadBot
  Disallow: /
  
  # 미 적용 규칙
  # Disallow: /feeds*
  
  # 접근 금지 URL 주소
  Disallow: /특정페이지주소

Sitemap 정보 제공

  • Sitemap: https://블로그(도메인 & 사이트)주소/sitemap.xml
  • Sitemap: https://블로그(도메인 & 사이트)주소/sitemap-pages.xml

검색 엔진 봇에게 사이트맵 파일의 위치를 알려줍니다. 사이트맵은 웹사이트의 모든 페이지 목록을 담고 있어, 검색 엔진이 사이트 구조를 파악하고 모든 페이지를 효율적으로 색인하는 데 도움을 줍니다.

모든 봇에 대한 기본 설정 (허용)

  • User-agent: * (모든 봇)
  • Allow: /*.html (HTML 확장자를 가진 모든 파일 허용)
  • Disallow: /search* (주소에 "/search" 포함된 페이지 제외)
  • Disallow: /20* (주소에 "/20"으로 시작하는 페이지 제외)

모든 봇(검색 엔진, 광고 봇 등)은 블로그의 모든 HTML 페이지(.html)에 접근할 수 있지만, 검색 결과 페이지(/search)와 특정 연도별 보관함 페이지(/20*)는 제외됩니다. 이는 검색 엔진이 블로그의 핵심 콘텐츠를 효율적으로 수집하고, 불필요한 페이지의 노출을 줄여 검색 결과의 품질을 높이는 데 도움을 줍니다.

특정 검색 엔진 봇 허용

  • User-agent: googlebot (Google 봇)
  • Allow: / (모든 페이지 허용)
  • User-agent: bingbot (Bing 봇)
  • Allow: / (모든 페이지 허용)
  • User-agent: DuckDuckGo (DuckDuckGo 봇)
  • Allow: / (모든 페이지 허용)
  • User-agent: YandexBot (Yandex 봇)
  • Allow: / (모든 페이지 허용)
  • User-agent: yeti (Naver 봇)
  • Allow: / (모든 페이지 허용)
  • user-agent:Daum (Daum 봇)
  • Allow: / (모든 페이지 허용)

Google, Bing, DuckDuckGo, Yandex, Naver, Daum 검색 엔진 봇이 사이트의 모든 페이지에 접근할 수 있도록 명시적으로 허용합니다.

Google Adsense 봇 허용

  • User-agent: Mediapartners-Google (Google Adsense 봇)
  • Allow: / (모든 페이지 허용)

Google Adsense 봇이 광고 관련 정보를 수집하기 위해 사이트의 모든 페이지에 접근할 수 있도록 허용합니다.

특정 봇 (BadBot) 접근 제한

  • User-agent: BadBot (BadBot)
  • Disallow: / (모든 페이지 접근 제한)

악성 봇으로 알려진 BadBot의 모든 페이지 접근을 차단합니다.

미 적용 규칙

  • # Disallow: /feeds* (주석 처리된 규칙)

주석으로 처리된 # Disallow: /feeds* 규칙은 현재 비활성화되어 있어 모든 봇이 /feeds로 시작하는 페이지 (일반적으로 RSS/Atom 피드)에 접근할 수 있습니다. 이는 블로그의 콘텐츠를 다른 플랫폼이나 서비스에서 활용하도록 허용하는 경우 유용합니다. 하지만, 피드 페이지를 통해 콘텐츠가 무분별하게 복제되거나, 검색 엔진 색인에 불필요한 부담을 줄 수 있다는 우려가 있다면, 이 규칙을 활성화하여 봇의 접근을 제한할 수 있습니다. 규칙 활성화 여부는 블로그 운영 목적과 콘텐츠 관리 방식에 따라 결정해야 합니다.

접근 금지 URL 주소

  • Disallow: /특정페이지주소

이 규칙은 특정 페이지에 대한 모든 봇의 접근을 명시적으로 금지합니다.

주의사항

  • robots.txt 파일은 검색 엔진 봇에게 권고사항을 제공하는 것이며, 모든 봇이 이를 반드시 따르는 것은 아닙니다.
  • robots.txt 파일은 대소문자를 구분합니다.
  • 규칙은 위에서 아래로 순차적으로 적용되므로, 특정 봇에 대한 규칙은 일반 규칙보다 아래에 위치해야 합니다.
다음 이전