- Topic_Blog: 미추적 상태였던 SEO/색인 지식 문서 일괄 추적 추가
(Google '페이지 색인 생성 보고서' 기반 신규 6종 포함:
페이지 색인 생성 보고서/색인 생성 유효성 검사/Soft 404/NOINDEX/
크롤링됨·발견됨-현재 색인 안 됨/SEO를 위한 HTTP 상태 코드).
- orphan 연결: 완전 고립된 지식 문서 9개를 관련 기존 문서와 양방향 링크
(Game Design 쌍, Aerospace, Apple Vision Pro, 3D_Web_HMI, Stock 3,
Topics_Biz). append-only, 존재 타깃만 링크(dangling 0).
도구: Datacollect/scripts/wiki_audit.mjs (중복·orphan 감사)
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
서버의 처리 능력과 사이트의 가치에 따라 Googlebot이 특정 기간 내에 수집할 수 있는 URL의 총량으로, 검색 가시성 확보를 위한 기술적 자원 배분 지표 [S31],[S141].
🧠 핵심 개념 (Core concepts)
크롤링 통계 (Crawl Stats): 지난 90일간 구글봇이 사이트에서 수행한 활동(하루 크롤링 페이지 수, 다운로드된 KB, 페이지 다운로드 시간)을 정량화한 데이터임 [S31],[S32].
크롤링 용량 (Crawl Capacity): DNS 분석 성공률, 서버 연결성, robots.txt 가져오기 성공 여부 등 서버의 기술적 상태에 의해 결정되는 수집 한계치임 [S33].
크롤링 대기열 (Crawl Queue): Google이 URL의 존재를 인식했으나(발견됨) 아직 실제 수집(가져오기) 단계로 넘어가지 못한 상태의 목록임 [S141].
크롤링 속도 조절 (Rate Control): 서버 부하가 심할 경우 Search Console을 통해 Google의 크롤링 속도를 명시적으로 낮추도록 요청할 수 있는 기능임 [S64].
🧩 추출된 패턴 (Extracted patterns)
서버 성능-수집량 상관 패턴: 페이지 다운로드 시간(Time spent downloading)이 증가하면 하루 크롤링 페이지 수(Pages crawled per day)가 감소하는 반비례 관계를 보임 [S31].
규모 기반 병목 패턴: 사이트 규모가 매우 크거나 서버 응답이 느린 경우, 새로운 URL이 '발견됨 – 현재 색인이 생성되지 않음' 상태로 대기열에 장기간 체류함 [S141].
리소스 최적화 패턴: 이미지, 자바스크립트 등 리소스 로드 차단을 해제하여 구글봇이 페이지의 의미를 분석하는 데 소요되는 리소스를 최소화함 [S93].
⚖️ 비교 및 선택 기준 (Comparison & decision criteria)
항목 (Option)
장점
단점
언제 선택
수동 크롤링 요청
특정 중요 페이지의 즉각적인 수집을 유도할 수 있음 [S141]
대량의 URL을 처리하기에는 비효율적임
신규 게시글이나 오류 수정 후 빠른 반영이 필요할 때
사이트맵 최적화
대규모 사이트의 URL 구조를 효율적으로 안내하여 전체 예산 배분을 도움 [S212]
Google이 사이트맵을 반드시 순서대로 수집한다는 보장은 없음 [S219]
5만 개 이상의 URL을 가진 대규모 사이트 운영 시
서버 성능 개선
크롤링 용량 자체를 늘려 대기열 병목 현상을 근본적으로 해결함 [S141]
인프라 비용 및 기술적 수정 리소스가 발생함
전체 사이트의 발견/수집 속도가 현저히 느릴 때
📖 세부 내용 (Details)
1. 크롤링 예산의 구성과 측정
크롤링 예산은 Google이 사이트를 얼마나 자주, 얼마나 깊게 크롤링할 것인지를 결정하는 리소스의 합입니다 [S32]. Search Console의 크롤링 통계(Crawl Stats) 페이지를 통해 Googlebot의 활동량을 모니터링할 수 있으며, 여기에는 하루에 크롤링된 페이지 수와 다운로드된 데이터 용량(KB), 그리고 각 요청에 걸린 시간(ms)이 포함됩니다 [S31].
2. 크롤링 효율을 저해하는 요인
사이트 오류: DNS 문제, 서버 연결 오류, robots.txt 가져오기 실패는 구글봇이 URL 요청 자체를 포기하게 만들어 예산을 낭비하게 합니다 [S33].
느린 서버 응답: 서버 응답이 느려지면 구글봇은 사이트 과부하를 방지하기 위해 크롤링 속도를 늦추며, 이는 대기열에 있는 URL의 색인 생성을 지연시킵니다 [S141].
저품질/중복 콘텐츠: 크롤링된 후에도 콘텐츠 분량이 부족하거나 낮은 품질로 판단되면 색인에서 제외되어 수집 리소스만 소모한 결과가 됩니다 [S141].
3. 기술적 최적화 전략
사이트맵 관리: 대규모 사이트는 사이트맵을 여러 개로 분할하여(파일당 최대 50MB 또는 5만 개 URL) Google이 합리적인 시간 내에 정보를 다운로드할 수 있게 해야 합니다 [S36],[S212].
가져오기(Fetching) 보장: 페이지 렌더링에 필수적인 CSS, 이미지, 자바스크립트 파일에 대한 구글봇의 접근을 robots.txt로 차단하지 않아야 정확하고 빠른 분석이 가능합니다 [S93].
⚖️ 모순 및 업데이트 (Contradictions & updates)
발견과 수집의 시차: URL을 발견(Discovery)했다고 해서 즉시 크롤링(Crawl)이 일어나는 것은 아닙니다. 소스에 따르면 '발견됨' 상태에서 실제 수집까지는 서버 상태와 사이트 규모에 따라 상당한 시차가 발생할 수 있습니다 [S141].
사이트맵의 역할: 사이트맵 제출은 수집을 강제하는 '명령'이 아니라 Googlebot에게 경로를 알려주는 '힌트'에 불과하며, 실제 수집 여부는 예산과 우선순위에 따릅니다 [S219].
🛠️ 적용 사례 (Applied in summary)
GSC 크롤링 통계 대시보드: 구글봇의 비정상적인 활동(Extraordinary activity)을 감지하고 서버 상태(Site Errors)와의 상관관계를 시각화하여 보고하는 시스템에 적용되었습니다 [S32],[S33].
색인 지연 디버깅: 대형 쇼핑몰이나 뉴스 사이트에서 신규 URL이 색인되지 않을 때, 서버 응답 속도를 개선하여 '크롤링 대기열'의 병목을 해결한 사례가 있습니다 [S141].
💻 코드 패턴 (Code patterns)
robots.txt를 통한 크롤링 부하 통제
# [S38], [S64] 참조
User-agent: Googlebot
Disallow: /tmp/
Disallow: /search_results/ # 무한한 동적 URL 생성을 막아 예산 낭비 방지
# 사이트맵 위치를 고지하여 발견 효율 증대
Sitemap: https://www.example.com/sitemap_index.xml