Files

T

koriweb 27b2c25e4d feat(wiki): Topic_Blog SEO 지식화 + orphan 연결

- Topic_Blog: 미추적 상태였던 SEO/색인 지식 문서 일괄 추적 추가
  (Google '페이지 색인 생성 보고서' 기반 신규 6종 포함:
   페이지 색인 생성 보고서/색인 생성 유효성 검사/Soft 404/NOINDEX/
   크롤링됨·발견됨-현재 색인 안 됨/SEO를 위한 HTTP 상태 코드).
- orphan 연결: 완전 고립된 지식 문서 9개를 관련 기존 문서와 양방향 링크
  (Game Design 쌍, Aerospace, Apple Vision Pro, 3D_Web_HMI, Stock 3,
   Topics_Biz). append-only, 존재 타깃만 링크(dangling 0).
도구: Datacollect/scripts/wiki_audit.mjs (중복·orphan 감사)

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-10 14:48:16 +09:00

8.2 KiB

Raw Blame History

id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit

title

Crawl Budget

🎯 한 줄 통찰 (One-line insight)

서버의 처리 능력과 사이트의 가치에 따라 Googlebot이 특정 기간 내에 수집할 수 있는 URL의 총량으로, 검색 가시성 확보를 위한 기술적 자원 배분 지표 [S31],[S141].

🧠 핵심 개념 (Core concepts)

크롤링 통계 (Crawl Stats): 지난 90일간 구글봇이 사이트에서 수행한 활동(하루 크롤링 페이지 수, 다운로드된 KB, 페이지 다운로드 시간)을 정량화한 데이터임 [S31],[S32].
크롤링 용량 (Crawl Capacity): DNS 분석 성공률, 서버 연결성, robots.txt 가져오기 성공 여부 등 서버의 기술적 상태에 의해 결정되는 수집 한계치임 [S33].
크롤링 대기열 (Crawl Queue): Google이 URL의 존재를 인식했으나(발견됨) 아직 실제 수집(가져오기) 단계로 넘어가지 못한 상태의 목록임 [S141].
크롤링 속도 조절 (Rate Control): 서버 부하가 심할 경우 Search Console을 통해 Google의 크롤링 속도를 명시적으로 낮추도록 요청할 수 있는 기능임 [S64].

🧩 추출된 패턴 (Extracted patterns)

서버 성능-수집량 상관 패턴: 페이지 다운로드 시간(Time spent downloading)이 증가하면 하루 크롤링 페이지 수(Pages crawled per day)가 감소하는 반비례 관계를 보임 [S31].
규모 기반 병목 패턴: 사이트 규모가 매우 크거나 서버 응답이 느린 경우, 새로운 URL이 '발견됨 – 현재 색인이 생성되지 않음' 상태로 대기열에 장기간 체류함 [S141].
리소스 최적화 패턴: 이미지, 자바스크립트 등 리소스 로드 차단을 해제하여 구글봇이 페이지의 의미를 분석하는 데 소요되는 리소스를 최소화함 [S93].

⚖️ 비교 및 선택 기준 (Comparison & decision criteria)

항목 (Option)	장점	단점	언제 선택
수동 크롤링 요청	특정 중요 페이지의 즉각적인 수집을 유도할 수 있음 [S141]	대량의 URL을 처리하기에는 비효율적임	신규 게시글이나 오류 수정 후 빠른 반영이 필요할 때
사이트맵 최적화	대규모 사이트의 URL 구조를 효율적으로 안내하여 전체 예산 배분을 도움 [S212]	Google이 사이트맵을 반드시 순서대로 수집한다는 보장은 없음 [S219]	5만 개 이상의 URL을 가진 대규모 사이트 운영 시
서버 성능 개선	크롤링 용량 자체를 늘려 대기열 병목 현상을 근본적으로 해결함 [S141]	인프라 비용 및 기술적 수정 리소스가 발생함	전체 사이트의 발견/수집 속도가 현저히 느릴 때

📖 세부 내용 (Details)

1. 크롤링 예산의 구성과 측정

크롤링 예산은 Google이 사이트를 얼마나 자주, 얼마나 깊게 크롤링할 것인지를 결정하는 리소스의 합입니다 [S32]. Search Console의 크롤링 통계(Crawl Stats) 페이지를 통해 Googlebot의 활동량을 모니터링할 수 있으며, 여기에는 하루에 크롤링된 페이지 수와 다운로드된 데이터 용량(KB), 그리고 각 요청에 걸린 시간(ms)이 포함됩니다 [S31].

2. 크롤링 효율을 저해하는 요인

사이트 오류: DNS 문제, 서버 연결 오류, robots.txt 가져오기 실패는 구글봇이 URL 요청 자체를 포기하게 만들어 예산을 낭비하게 합니다 [S33].
느린 서버 응답: 서버 응답이 느려지면 구글봇은 사이트 과부하를 방지하기 위해 크롤링 속도를 늦추며, 이는 대기열에 있는 URL의 색인 생성을 지연시킵니다 [S141].
저품질/중복 콘텐츠: 크롤링된 후에도 콘텐츠 분량이 부족하거나 낮은 품질로 판단되면 색인에서 제외되어 수집 리소스만 소모한 결과가 됩니다 [S141].

3. 기술적 최적화 전략

사이트맵 관리: 대규모 사이트는 사이트맵을 여러 개로 분할하여(파일당 최대 50MB 또는 5만 개 URL) Google이 합리적인 시간 내에 정보를 다운로드할 수 있게 해야 합니다 [S36],[S212].
가져오기(Fetching) 보장: 페이지 렌더링에 필수적인 CSS, 이미지, 자바스크립트 파일에 대한 구글봇의 접근을 robots.txt로 차단하지 않아야 정확하고 빠른 분석이 가능합니다 [S93].

⚖️ 모순 및 업데이트 (Contradictions & updates)

발견과 수집의 시차: URL을 발견(Discovery)했다고 해서 즉시 크롤링(Crawl)이 일어나는 것은 아닙니다. 소스에 따르면 '발견됨' 상태에서 실제 수집까지는 서버 상태와 사이트 규모에 따라 상당한 시차가 발생할 수 있습니다 [S141].
사이트맵의 역할: 사이트맵 제출은 수집을 강제하는 '명령'이 아니라 Googlebot에게 경로를 알려주는 '힌트'에 불과하며, 실제 수집 여부는 예산과 우선순위에 따릅니다 [S219].

🛠️ 적용 사례 (Applied in summary)

GSC 크롤링 통계 대시보드: 구글봇의 비정상적인 활동(Extraordinary activity)을 감지하고 서버 상태(Site Errors)와의 상관관계를 시각화하여 보고하는 시스템에 적용되었습니다 [S32],[S33].
색인 지연 디버깅: 대형 쇼핑몰이나 뉴스 사이트에서 신규 URL이 색인되지 않을 때, 서버 응답 속도를 개선하여 '크롤링 대기열'의 병목을 해결한 사례가 있습니다 [S141].

💻 코드 패턴 (Code patterns)

robots.txt를 통한 크롤링 부하 통제

# [S38], [S64] 참조
User-agent: Googlebot
Disallow: /tmp/
Disallow: /search_results/ # 무한한 동적 URL 생성을 막아 예산 낭비 방지

# 사이트맵 위치를 고지하여 발견 효율 증대
Sitemap: https://www.example.com/sitemap_index.xml

✅ 검증 상태 및 신뢰도

상태: draft
검증 단계: conceptual
출처 신뢰도: A (Google 검색 센터 공식 문서 및 SEO 학술 연구 CRJ 기반)
신뢰 점수: 0.90
중복 검사 결과: 신규 생성 (New discovery)

🔗 지식 그래프 (Knowledge Graph)

상위/루트: google search console
관련 개념: Crawling, Googlebot, Sitemap, Indexing
참조 맥락: 대규모 웹사이트의 수집 효율 최적화 및 서버 성능과 검색 가시성 간의 상관관계 분석 시 참조됨.

📚 출처 (Sources)

[S1] Computer Reviews Journal Vol 1 No 1 (2018) Search Engine Optimization (Mr. T. Parthiban et al.)
[S2] 구글 서치콘솔 색인 문제, 종류별 대응 가이드 (웹닷 전문 칼럼)
[S3] Core Web Vitals 및 Google 검색결과 이해하기 (Google 검색 센터)
[S4] Search Console 시작하기 - 주요 개념 (Search Console 도움말)
[S5] 사이트맵 제작 및 제출하기 (Google 검색 센터 공식 문서)

📝 변경 이력 (Change history)

2026-06-10: Initial draft generated via Datacollector_MAC P-Reinforce engine (크롤링 통계 및 대기열 병목 분석 중심).

8.2 KiB Raw Blame History