2nd/10_Wiki/Topic_Blog/Crawl Budget.md

---
id: crawl-budget
title: "Crawl Budget"
category: "Search_Engineering"
status: "draft"
verification_status: "conceptual"
canonical_id: ""
aliases: ["크롤링 예산", "Crawling Budget", "크롤링 통계", "Crawl Stats", "수집 한도", "수집 용량", "구글봇 활동량", "Crawl Rate"]
duplicate_of: ""
source_trust_level: "A"
confidence_score: 0.90
created_at: 2026-06-10
updated_at: 2026-06-10
review_reason: ""
merge_history: []
tags: ["research", "google search console", "crawling", "googlebot", "performance"]
raw_sources: [
  "Computer Reviews Journal Vol 1 No 1 (2018) Search Engine Optimization with Google Search Console",
  "구글 서치콘솔 색인 문제, 종류별 대응 가이드 - 웹닷",
  "Core Web Vitals 및 Google 검색결과 이해하기 | Google 검색 센터",
  "Search Console 시작하기 - Search Console 도움말",
  "사이트맵 제작 및 제출하기 | Google 검색 센터"
]
applied_in: [
  "Search Console '크롤링 통계(Crawl Stats)' 보고서의 활동량 시각화 로직",
  "대규모 사이트의 사이트맵 분할(50,000개 URL 제한) 및 관리 전략",
  "서버 응답 속도에 따른 크롤링 대기열(Discovery Queue) 우선순위 할당"
]
github_commit: ""
---

# [[Crawl Budget]]

## 🎯 한 줄 통찰 (One-line insight)
서버의 처리 능력과 사이트의 가치에 따라 Googlebot이 특정 기간 내에 수집할 수 있는 URL의 총량으로, 검색 가시성 확보를 위한 기술적 자원 배분 지표 [S31],[S141].

## 🧠 핵심 개념 (Core concepts)
- **크롤링 통계 (Crawl Stats):** 지난 90일간 구글봇이 사이트에서 수행한 활동(하루 크롤링 페이지 수, 다운로드된 KB, 페이지 다운로드 시간)을 정량화한 데이터임 [S31],[S32].
- **크롤링 용량 (Crawl Capacity):** DNS 분석 성공률, 서버 연결성, robots.txt 가져오기 성공 여부 등 서버의 기술적 상태에 의해 결정되는 수집 한계치임 [S33].
- **크롤링 대기열 (Crawl Queue):** Google이 URL의 존재를 인식했으나(발견됨) 아직 실제 수집(가져오기) 단계로 넘어가지 못한 상태의 목록임 [S141].
- **크롤링 속도 조절 (Rate Control):** 서버 부하가 심할 경우 Search Console을 통해 Google의 크롤링 속도를 명시적으로 낮추도록 요청할 수 있는 기능임 [S64].

## 🧩 추출된 패턴 (Extracted patterns)
- **서버 성능-수집량 상관 패턴:** 페이지 다운로드 시간(Time spent downloading)이 증가하면 하루 크롤링 페이지 수(Pages crawled per day)가 감소하는 반비례 관계를 보임 [S31].
- **규모 기반 병목 패턴:** 사이트 규모가 매우 크거나 서버 응답이 느린 경우, 새로운 URL이 '발견됨 – 현재 색인이 생성되지 않음' 상태로 대기열에 장기간 체류함 [S141].
- **리소스 최적화 패턴:** 이미지, 자바스크립트 등 리소스 로드 차단을 해제하여 구글봇이 페이지의 의미를 분석하는 데 소요되는 리소스를 최소화함 [S93].

## ⚖️ 비교 및 선택 기준 (Comparison & decision criteria)

| 항목 (Option) | 장점 | 단점 | 언제 선택 |
|---|---|---|---|
| **수동 크롤링 요청** | 특정 중요 페이지의 즉각적인 수집을 유도할 수 있음 [S141] | 대량의 URL을 처리하기에는 비효율적임 | 신규 게시글이나 오류 수정 후 빠른 반영이 필요할 때 |
| **사이트맵 최적화** | 대규모 사이트의 URL 구조를 효율적으로 안내하여 전체 예산 배분을 도움 [S212] | Google이 사이트맵을 반드시 순서대로 수집한다는 보장은 없음 [S219] | 5만 개 이상의 URL을 가진 대규모 사이트 운영 시 |
| **서버 성능 개선** | 크롤링 용량 자체를 늘려 대기열 병목 현상을 근본적으로 해결함 [S141] | 인프라 비용 및 기술적 수정 리소스가 발생함 | 전체 사이트의 발견/수집 속도가 현저히 느릴 때 |

## 📖 세부 내용 (Details)
### 1. 크롤링 예산의 구성과 측정
크롤링 예산은 Google이 사이트를 얼마나 자주, 얼마나 깊게 크롤링할 것인지를 결정하는 리소스의 합입니다 [S32]. Search Console의 **크롤링 통계(Crawl Stats)** 페이지를 통해 Googlebot의 활동량을 모니터링할 수 있으며, 여기에는 하루에 크롤링된 페이지 수와 다운로드된 데이터 용량(KB), 그리고 각 요청에 걸린 시간(ms)이 포함됩니다 [S31].

### 2. 크롤링 효율을 저해하는 요인
- **사이트 오류:** DNS 문제, 서버 연결 오류, robots.txt 가져오기 실패는 구글봇이 URL 요청 자체를 포기하게 만들어 예산을 낭비하게 합니다 [S33].
- **느린 서버 응답:** 서버 응답이 느려지면 구글봇은 사이트 과부하를 방지하기 위해 크롤링 속도를 늦추며, 이는 대기열에 있는 URL의 색인 생성을 지연시킵니다 [S141].
- **저품질/중복 콘텐츠:** 크롤링된 후에도 콘텐츠 분량이 부족하거나 낮은 품질로 판단되면 색인에서 제외되어 수집 리소스만 소모한 결과가 됩니다 [S141].

### 3. 기술적 최적화 전략
- **사이트맵 관리:** 대규모 사이트는 사이트맵을 여러 개로 분할하여(파일당 최대 50MB 또는 5만 개 URL) Google이 합리적인 시간 내에 정보를 다운로드할 수 있게 해야 합니다 [S36],[S212].
- **가져오기(Fetching) 보장:** 페이지 렌더링에 필수적인 CSS, 이미지, 자바스크립트 파일에 대한 구글봇의 접근을 robots.txt로 차단하지 않아야 정확하고 빠른 분석이 가능합니다 [S93].

## ⚖️ 모순 및 업데이트 (Contradictions & updates)
- **발견과 수집의 시차:** URL을 발견(Discovery)했다고 해서 즉시 크롤링(Crawl)이 일어나는 것은 아닙니다. 소스에 따르면 '발견됨' 상태에서 실제 수집까지는 서버 상태와 사이트 규모에 따라 상당한 시차가 발생할 수 있습니다 [S141].
- **사이트맵의 역할:** 사이트맵 제출은 수집을 강제하는 '명령'이 아니라 Googlebot에게 경로를 알려주는 '힌트'에 불과하며, 실제 수집 여부는 예산과 우선순위에 따릅니다 [S219].

## 🛠️ 적용 사례 (Applied in summary)
- **GSC 크롤링 통계 대시보드:** 구글봇의 비정상적인 활동(Extraordinary activity)을 감지하고 서버 상태(Site Errors)와의 상관관계를 시각화하여 보고하는 시스템에 적용되었습니다 [S32],[S33].
- **색인 지연 디버깅:** 대형 쇼핑몰이나 뉴스 사이트에서 신규 URL이 색인되지 않을 때, 서버 응답 속도를 개선하여 '크롤링 대기열'의 병목을 해결한 사례가 있습니다 [S141].

## 💻 코드 패턴 (Code patterns)
### robots.txt를 통한 크롤링 부하 통제
```text
# [S38], [S64] 참조
User-agent: Googlebot
Disallow: /tmp/
Disallow: /search_results/ # 무한한 동적 URL 생성을 막아 예산 낭비 방지

# 사이트맵 위치를 고지하여 발견 효율 증대
Sitemap: https://www.example.com/sitemap_index.xml
```

## ✅ 검증 상태 및 신뢰도
- **상태:** draft
- **검증 단계:** conceptual
- **출처 신뢰도:** A (Google 검색 센터 공식 문서 및 SEO 학술 연구 CRJ 기반)
- **신뢰 점수:** 0.90
- **중복 검사 결과:** 신규 생성 (New discovery)


## 🔗 지식 그래프 (Knowledge Graph)
- **상위/루트:** [[google search console]]
- **관련 개념:** [[Crawling]], [[Googlebot]], [[Sitemap]], [[Indexing]]
- **참조 맥락:** 대규모 웹사이트의 수집 효율 최적화 및 서버 성능과 검색 가시성 간의 상관관계 분석 시 참조됨.

## 📚 출처 (Sources)
- [S1] Computer Reviews Journal Vol 1 No 1 (2018) Search Engine Optimization (Mr. T. Parthiban et al.)
- [S2] 구글 서치콘솔 색인 문제, 종류별 대응 가이드 (웹닷 전문 칼럼)
- [S3] Core Web Vitals 및 Google 검색결과 이해하기 (Google 검색 센터)
- [S4] Search Console 시작하기 - 주요 개념 (Search Console 도움말)
- [S5] 사이트맵 제작 및 제출하기 (Google 검색 센터 공식 문서)

## 📝 변경 이력 (Change history)
- 2026-06-10: Initial draft generated via Datacollector_MAC P-Reinforce engine (크롤링 통계 및 대기열 병목 분석 중심).