Files
2nd/10_Wiki/Topic_Blog/Crawl Budget.md
T
koriweb 27b2c25e4d feat(wiki): Topic_Blog SEO 지식화 + orphan 연결
- Topic_Blog: 미추적 상태였던 SEO/색인 지식 문서 일괄 추적 추가
  (Google '페이지 색인 생성 보고서' 기반 신규 6종 포함:
   페이지 색인 생성 보고서/색인 생성 유효성 검사/Soft 404/NOINDEX/
   크롤링됨·발견됨-현재 색인 안 됨/SEO를 위한 HTTP 상태 코드).
- orphan 연결: 완전 고립된 지식 문서 9개를 관련 기존 문서와 양방향 링크
  (Game Design 쌍, Aerospace, Apple Vision Pro, 3D_Web_HMI, Stock 3,
   Topics_Biz). append-only, 존재 타깃만 링크(dangling 0).
도구: Datacollect/scripts/wiki_audit.mjs (중복·orphan 감사)

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 14:48:16 +09:00

8.2 KiB

id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit
id title category status verification_status canonical_id aliases duplicate_of source_trust_level confidence_score created_at updated_at review_reason merge_history tags raw_sources applied_in github_commit
crawl-budget Crawl Budget Search_Engineering draft conceptual
크롤링 예산
Crawling Budget
크롤링 통계
Crawl Stats
수집 한도
수집 용량
구글봇 활동량
Crawl Rate
A 0.90 2026-06-10 2026-06-10
research
google search console
crawling
googlebot
performance
Computer Reviews Journal Vol 1 No 1 (2018) Search Engine Optimization with Google Search Console
구글 서치콘솔 색인 문제, 종류별 대응 가이드 - 웹닷
Core Web Vitals 및 Google 검색결과 이해하기 | Google 검색 센터
Search Console 시작하기 - Search Console 도움말
사이트맵 제작 및 제출하기 | Google 검색 센터
Search Console '크롤링 통계(Crawl Stats)' 보고서의 활동량 시각화 로직
대규모 사이트의 사이트맵 분할(50,000개 URL 제한) 및 관리 전략
서버 응답 속도에 따른 크롤링 대기열(Discovery Queue) 우선순위 할당

Crawl Budget

🎯 한 줄 통찰 (One-line insight)

서버의 처리 능력과 사이트의 가치에 따라 Googlebot이 특정 기간 내에 수집할 수 있는 URL의 총량으로, 검색 가시성 확보를 위한 기술적 자원 배분 지표 [S31],[S141].

🧠 핵심 개념 (Core concepts)

  • 크롤링 통계 (Crawl Stats): 지난 90일간 구글봇이 사이트에서 수행한 활동(하루 크롤링 페이지 수, 다운로드된 KB, 페이지 다운로드 시간)을 정량화한 데이터임 [S31],[S32].
  • 크롤링 용량 (Crawl Capacity): DNS 분석 성공률, 서버 연결성, robots.txt 가져오기 성공 여부 등 서버의 기술적 상태에 의해 결정되는 수집 한계치임 [S33].
  • 크롤링 대기열 (Crawl Queue): Google이 URL의 존재를 인식했으나(발견됨) 아직 실제 수집(가져오기) 단계로 넘어가지 못한 상태의 목록임 [S141].
  • 크롤링 속도 조절 (Rate Control): 서버 부하가 심할 경우 Search Console을 통해 Google의 크롤링 속도를 명시적으로 낮추도록 요청할 수 있는 기능임 [S64].

🧩 추출된 패턴 (Extracted patterns)

  • 서버 성능-수집량 상관 패턴: 페이지 다운로드 시간(Time spent downloading)이 증가하면 하루 크롤링 페이지 수(Pages crawled per day)가 감소하는 반비례 관계를 보임 [S31].
  • 규모 기반 병목 패턴: 사이트 규모가 매우 크거나 서버 응답이 느린 경우, 새로운 URL이 '발견됨 – 현재 색인이 생성되지 않음' 상태로 대기열에 장기간 체류함 [S141].
  • 리소스 최적화 패턴: 이미지, 자바스크립트 등 리소스 로드 차단을 해제하여 구글봇이 페이지의 의미를 분석하는 데 소요되는 리소스를 최소화함 [S93].

⚖️ 비교 및 선택 기준 (Comparison & decision criteria)

항목 (Option) 장점 단점 언제 선택
수동 크롤링 요청 특정 중요 페이지의 즉각적인 수집을 유도할 수 있음 [S141] 대량의 URL을 처리하기에는 비효율적임 신규 게시글이나 오류 수정 후 빠른 반영이 필요할 때
사이트맵 최적화 대규모 사이트의 URL 구조를 효율적으로 안내하여 전체 예산 배분을 도움 [S212] Google이 사이트맵을 반드시 순서대로 수집한다는 보장은 없음 [S219] 5만 개 이상의 URL을 가진 대규모 사이트 운영 시
서버 성능 개선 크롤링 용량 자체를 늘려 대기열 병목 현상을 근본적으로 해결함 [S141] 인프라 비용 및 기술적 수정 리소스가 발생함 전체 사이트의 발견/수집 속도가 현저히 느릴 때

📖 세부 내용 (Details)

1. 크롤링 예산의 구성과 측정

크롤링 예산은 Google이 사이트를 얼마나 자주, 얼마나 깊게 크롤링할 것인지를 결정하는 리소스의 합입니다 [S32]. Search Console의 크롤링 통계(Crawl Stats) 페이지를 통해 Googlebot의 활동량을 모니터링할 수 있으며, 여기에는 하루에 크롤링된 페이지 수와 다운로드된 데이터 용량(KB), 그리고 각 요청에 걸린 시간(ms)이 포함됩니다 [S31].

2. 크롤링 효율을 저해하는 요인

  • 사이트 오류: DNS 문제, 서버 연결 오류, robots.txt 가져오기 실패는 구글봇이 URL 요청 자체를 포기하게 만들어 예산을 낭비하게 합니다 [S33].
  • 느린 서버 응답: 서버 응답이 느려지면 구글봇은 사이트 과부하를 방지하기 위해 크롤링 속도를 늦추며, 이는 대기열에 있는 URL의 색인 생성을 지연시킵니다 [S141].
  • 저품질/중복 콘텐츠: 크롤링된 후에도 콘텐츠 분량이 부족하거나 낮은 품질로 판단되면 색인에서 제외되어 수집 리소스만 소모한 결과가 됩니다 [S141].

3. 기술적 최적화 전략

  • 사이트맵 관리: 대규모 사이트는 사이트맵을 여러 개로 분할하여(파일당 최대 50MB 또는 5만 개 URL) Google이 합리적인 시간 내에 정보를 다운로드할 수 있게 해야 합니다 [S36],[S212].
  • 가져오기(Fetching) 보장: 페이지 렌더링에 필수적인 CSS, 이미지, 자바스크립트 파일에 대한 구글봇의 접근을 robots.txt로 차단하지 않아야 정확하고 빠른 분석이 가능합니다 [S93].

⚖️ 모순 및 업데이트 (Contradictions & updates)

  • 발견과 수집의 시차: URL을 발견(Discovery)했다고 해서 즉시 크롤링(Crawl)이 일어나는 것은 아닙니다. 소스에 따르면 '발견됨' 상태에서 실제 수집까지는 서버 상태와 사이트 규모에 따라 상당한 시차가 발생할 수 있습니다 [S141].
  • 사이트맵의 역할: 사이트맵 제출은 수집을 강제하는 '명령'이 아니라 Googlebot에게 경로를 알려주는 '힌트'에 불과하며, 실제 수집 여부는 예산과 우선순위에 따릅니다 [S219].

🛠️ 적용 사례 (Applied in summary)

  • GSC 크롤링 통계 대시보드: 구글봇의 비정상적인 활동(Extraordinary activity)을 감지하고 서버 상태(Site Errors)와의 상관관계를 시각화하여 보고하는 시스템에 적용되었습니다 [S32],[S33].
  • 색인 지연 디버깅: 대형 쇼핑몰이나 뉴스 사이트에서 신규 URL이 색인되지 않을 때, 서버 응답 속도를 개선하여 '크롤링 대기열'의 병목을 해결한 사례가 있습니다 [S141].

💻 코드 패턴 (Code patterns)

robots.txt를 통한 크롤링 부하 통제

# [S38], [S64] 참조
User-agent: Googlebot
Disallow: /tmp/
Disallow: /search_results/ # 무한한 동적 URL 생성을 막아 예산 낭비 방지

# 사이트맵 위치를 고지하여 발견 효율 증대
Sitemap: https://www.example.com/sitemap_index.xml

검증 상태 및 신뢰도

  • 상태: draft
  • 검증 단계: conceptual
  • 출처 신뢰도: A (Google 검색 센터 공식 문서 및 SEO 학술 연구 CRJ 기반)
  • 신뢰 점수: 0.90
  • 중복 검사 결과: 신규 생성 (New discovery)

🔗 지식 그래프 (Knowledge Graph)

📚 출처 (Sources)

  • [S1] Computer Reviews Journal Vol 1 No 1 (2018) Search Engine Optimization (Mr. T. Parthiban et al.)
  • [S2] 구글 서치콘솔 색인 문제, 종류별 대응 가이드 (웹닷 전문 칼럼)
  • [S3] Core Web Vitals 및 Google 검색결과 이해하기 (Google 검색 센터)
  • [S4] Search Console 시작하기 - 주요 개념 (Search Console 도움말)
  • [S5] 사이트맵 제작 및 제출하기 (Google 검색 센터 공식 문서)

📝 변경 이력 (Change history)

  • 2026-06-10: Initial draft generated via Datacollector_MAC P-Reinforce engine (크롤링 통계 및 대기열 병목 분석 중심).